Minggu, 11 Oktober 2015

DATA WAREHOUSE DAN BIG DATA

Nama/NIM : I Gede Janar Adi Baskara/1304505100
Jurusan/Fakultas/Perguruan Tinggi : Teknologi Informasi/Teknik/Universitas Udayana
Mata Kuliah : Data Warehouse
Dosen : I Putu Agus Eka Pratama, S.T., M.T.

DATA WAREHOUSE DAN BIG DATA

Data Warehouse
Data warehouse adalah suatu konsep dan kombinasi teknologi yang memfasilitasi organisasi untuk mengelola dan memelihara data historis yang diperoleh dari sistem atau aplikasi operasional [Ferdiana, 2008].  Pemakaian teknologi data warehouse hampir dibutuhkan oleh semua organisasi, tidak terkecuali perpustakaan. Data warehouse memungkinkan integrasi berbagai macam jenis data dari berbagai macam aplikasi atau sistem. Hal ini menjamin mekanisme akses “satu pintu bagi manajemen untuk memperoleh informasi, dan menganalisisnya untuk pengambilan keputusan”.


Data warehouse merupakan koleksi data yang mempunyai karakteristik berorientasi subjek, terintegrasi, time-variant, dan non-volatile, bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan management. Data Warehouse merujuk pada suatu database yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan.
Data warehouse sering diintegrasikan dengan berbagai sistem aplikasi untuk mendukung proses laporan dan analisis data dengan menyediakan data histori. Jadi, data warehouse merupakan metode dalam perancangan database, yang menunjang dan menyediakan infrastruktur bagi DSS (Decission Support System) dan EIS (Executive Information System).

Big Data
Big data merupakan sekumpulan data yang memiliki skala besar sehingga tidak dapat diproses menggunakan alat tradisional biasa dan harus menggunakan cara maupun alat baru untuk mendapatkan nilai dari data ini, bisa dengan cara di clustering, partisi, dan digudangkan pada data warehouse.

 Big data mengacu pada kumpulan data yang ukurannya diluar kemampuan dari database software tools untuk meng-capture, menyimpan,me-manage dan menganalisis. Ukuran big data sekitar beberapa lusin TeraByte sampai ke beberapa PetaByte tergantung dari kebutuhan industri akan data tersebut. Dalam pemrosesan big data, terdapat 3 dimensi pendukung yang kita kenal dengan istilah 3V, antara lain : Variety, Velocity, dan Volume.

Variety : pengolahan, penyimpanan dan analisis data yang sangat kompleks dalam beragam bentuk/format.
Big data memiliki keanekaragaman data yang didapatkan dari lingkungan internal dan eksternal perusahaan, layaknya studi tentang gaji dan demografi tenaga kerja. Variasi juga mengacu pada jenis data yang terstruktur dan tidak terstruktur.
Data yang terstruktur merupakan data yang bersifat standar dan relasional, seperti HRIS, sistem akunting, dan sistem perencaaan sumber daya perusahaan. Berbeda halnya dengan data yang tidak terstruktur, data tersebut didapatkan dari sumber informasi yang lebih luas seperti pernyataan lisan/tulisan dari subjek penelitian, surel, gambar, video, hingga postingan di social media.

Velocity  : mengacu pada kecepatan dalam pengolahan data
Kecepatan atau velocity mereferensi kepada peningkatan pengumpulan data dan seberapa cepat data yang dikumpulkan harus dievaluasi dan diaplikasikan untuk meningkatkan nilai bisnis.

Volume  : data yang diproduksi lebih besar dari data non tradisional
Volume dari big data selalu meningkat seiring berjalannya waktu, terlebih lagi dengan kemajuan teknologi yang memudahkan perusahaan untuk mendokumentasikan informasi digital yang datang dari berbagai sumber seperti smartphones, media sosial, dan social barcode

Dari ketiga dimensi big data yang telah dipaparkan, maka dapat dipahami bahwa big data merupakan manifestasi dari peningkatan jumlah dan variasi data yang datang secara cepat dari berbagai media. Proses utilisasi big data tidak selesai pada pengumpulan data yang beragam, melainkan terus berlanjut seiring dengan perusahaan men-transformasikan data-data mentah menjadi informasi yang terukur, dan dapat dimengerti. Manfaat adanya Big data antara lain adalah dapat membantu analisa proses sistem yang sedang berjalan untuk mencegah dan menanggulangi kegagalan dalam sistem, menggunakan hasil analisa log untuk menemukan dan menetukan secara pasti kegagalan apa yang terjadi didalam sistem, menyiapkan langkah-langkah pasti yang dapat digunakan sebagai solusi masalah sistem.
http://makingdatameaningful.com/wp-content/uploads/3vsBigData.jpg

Gambar Diagram Karakteristik Big Data
(Sumber: http://makingdatameaningful.com/wp-content/uploads/3vsBigData.jpg)

Seiring dengan perkembangan dunia digital, data yang butuh untuk disimpan kedalam database semakin besar. Data tersebut bisa jadi tumbuh dalam hitungan detik, dan yang lebih parah adalah bentuk data tersebut semakin beragam. Bisa jadi data-data tersebut memiliki format video, gambar, logsbinarytrace logs (.pcap), dsb. Ketika data-data tersebut tumbuh dalam hitungan detik dan ingin disimpan dalam database sehingga bisa diproses oleh aplikasi maka dibutuhkan suatu pendekatan baru untuk menyimpan data-data tersebut serta memprosesnya dalam waktu singkat. Kita tidak perlu membuat definisi struktur terlebih dahulu untuk menyimpan data tersebut sehingga apapun bentuk datanya maka akan tersimpan kedalam media penyimpanan / database, apabila dibutuhkan maka kita bisa memproses data apapun dalam media penyimpanan tersebut untuk mendapatkan hasil pemrosesan dalam waktu singkat. Hingga saat ini terdapat berbagai software Big Data seperti Apache Hadoop, IBM’s Big Data Platform, Oracle NoSql Database, Microsoft HDInsight dan EMC Pivotal One.
Big Data dan Data Warehouse
Big Data dan Data Warehouse tidaklah saling bertentangan, masing-masing  baik Big Data dan Data Warehousememiliki kasus skenario penggunaan sendiri. Dalam beberapa kasus, sebuah perusahaan yang memilikidatabase terutama operasional yang memiliki data terstruktur sehingga analisis data dapat dilakukan dengan hanya mengandalkan Data Warehouse, sedangkan pada sebuah kasus dimana sebuah industri yang membutuhkan dan menggunakan sejumlah data mentah yang besar, dan bentuk/format datanya sangat bervariasi untuk melakukan analisis maka diperlukan teknologi Big Data.

Membangun Data Warehouse juga dapat membantu dalam membangun open-standards API untuk memungkinkan fleksibilitas ketika dikemudian hari diperlukannya teknologi Big Data karena akan lebih mudah dalam membangun API dari sumber data yang ada dari berbagai sumber operasional yang telah disetujui. 

Processing (Pengolahan) Data Warehouse dan Big Data
Dalam mengolah data pada Data Warehouse  dan Big Data diperlukan infrastruktur yang mumpuni seperti dengan menggunakan supercomputer atau yang sering disebut sebagai high-level computingSupercomputerbukan seperti komputer pada umumnya. Supercomputer adalah mesin komputasi yang memiliki kinerja tingkat tinggi dan memiliki kecepatan pemprosesan data yang sangat cepat. Supercomputer memiliki berbagai macam aplikasi, seperti, scientific calculationsmodeling simulations, and rendering large 3D graphicsSupercomputerbiasanya memiliki ukuran yang lebih besar dari komputer biasa dan membutuhkan daya/power yang lebih besar dari komputer biasa. Bahkan, sebuah Supercomputer dapat terdiri dari serangkaian komputer yang membutuhkan space ruangan yang besar.

Infrastruktur adalah landasan dalam menjalankan sebuah sistem. Untuk menggunakan infrastruktur yang telah disediakan, maka diperlukan sebuah perankat lunak yang mampu menangani pemrosesan Data Warehouse danBig Data. Salah satu perangkat tersebut adalah Apache Hadoop yang merupakan sebuah framework perangkat lunak open-source. 


Apache Hadoop terdiri dari 4 modul yaitu, Hadoop Common (berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya), HDFS atau Hadoop Distributed File System (sebuah distributed file-system), Hadoop YARN (sebuah platform resource-management yang bertanggung jawab untuk mengelola resources dalam clusters danscheduling), dan Hadoop MapReduce (sebuah model programming untuk pengelolaan data skala besar).

Anaytical (Analisa Data) dengan OLAP
OLAP adalah singkatan dari Online Analytical Processing. OLAP digunakan untuk pengambilan keputusan, OLAP berguna dalam melakukan analisis data yang sudah ada untuk membantu dalam pengambilan keputusan di masa yang akan datang. OLAP merupakan teknologi yang memproses data di dalam database dalam struktur multidimensi, menyediakan jawaban yang cepat untuk query dan analisis yang kompleks. Data yang disajikan biasanya merupakan suatu fungsi agregasi seperti summary (rangkuman), max (nilai maksimum), min (nilai minimum), average (rata-rata), dan sebagainya.

OLAP memiliki suatu konsep yang biasa disingkat menjadi (FASMI). Konsep ini diutarakan oleh Nigel Pendse dimana FASMI berarti FastAnalysisSharedMultidimensional, dan InformationFast berarti pengolahan jutaan data transaksi dapat dilakukan dengan cepat. Analysis berarti bahwa sisem dapat mencakup setiap Business Logic (Logika Bisnis) dan data analisa statistik yang relevan dengan data-data yang tersedia. Shared berarti bahwa sistem yang digunakan, di dalamnya telah diimplementasikan suatu sistem keamanan untuk menjaga kerahasiaan informasi, dimana informasi yang dibagikan disesuaikan dengan kebutuhan berdasarkan hak akses masing-masing pengguna. Multidimensional adalah suatu kunci kebutuhan terhadap penggunaan aplikasi OLAP, dimana setiap aplikasi harus selalu mengandung unsur multi dimensi. Information adalah semua data dan turunan informasi yang dibutuhkan, dimanapun dan bagaimanapun data yang akan digunakan data tersebut harus siap digunakan dan terus terhubung dengan aplikasi untuk diolah kembali menjadi informasi yang utuh.

Transactional (Transaksi Data) dengan OLTP
OLTP adalah singkatan dari Online Transaction Processing. OLTP merupakan suatu aplikasi atau program yang digunakan dalam operasional perusahaan sehari-hari seperti melakukan insert (memasukan data), update(mengubah data) dan delete (menghapus data) berbagai macam data, seperti penjualan, pembelian, produksi dan lain sebagainya. OLTP bertujuan untuk memproses suatu transaksi secara langsung melalui komputer yang tergabung didalam jaringan. Contohnya seperti aplikasi yang digunakan minimarket dalam melayani penjualan, jika ada suatu transaksi penjualan, seorang kasir dapat langsung memasukan data kedalam aplikasi yang terhubung didalam jaringan, sehingga pemrosesan data terbantu oleh adanya OLTP tersebut. Berdasarkan datanya, OLTP menggunakan data asli atau hari ini dan dapat di update setiap saat. OLTP biasanya memiliki ukuran yang relatif kecil.



DAFTAR PUSTAKA

[1] Pendse, Nigel. 2005. What is OLAP?. The BI Verdict, Business Application Research Center, 2009. Exposition of "Fast Analysis of Shared Multidimensional Information" (FASMI).

[2] Oracle. 2014. Oracle Database 12c for Data Warehousing and Big Data. http://www.oracle.com/technetwork/database/bi-datawarehousing/data-warehousing-wp-12c-1896097.pdf.  

[3]  http://vijjam.blogspot.co.id/2013/12/memahami-definisi-big-data.html

[4] Maulana, Adhi. 2014. Apa Itu Teknologi 'Big Data' ?. http://tekno.liputan6.com/read/801638/apa-itu-teknologi-big-data.

[5] Wikipedia, English. 2015. Big Data. https://en.wikipedia.org/wiki/Big_data.

[6] Heripracoyo, Sulistyo. 2014. Big Data. http://sis.binus.ac.id/2014/04/29/big-data/.



Tidak ada komentar:

Posting Komentar