Minggu, 18 Oktober 2015

DATA MART, DATA WAREHOUSE, ETL, ELT, DAN OLAP

Nama/NIM: I Gede Janar Adi Baskara/1304505100
Jurusan/Fakultas/Perguruan Tinggi: Teknologi Informasi/Teknik/Universitas Udayana
Mata Kuliah: Data Warehouse
Dosen: I Putu Agus Eka Pratama, S.T., M.T.


DATA MART, DATA WAREHOUSE, ETL, ELT, DAN OLAP

Data Mart
Data Mart merupakan bagian dari Data Warehouse yang mendukung pada tingkat departemen atau fungsi bisnis tertentu pada perusahaan dengan kata lain, sebuah data mart adalah bentuk sederhana dari sebuah gudang data yang difokuskan pada subjek tunggal (atau area fungsional), seperti Penjualan, Keuangan, atau Marketing.Data Mart sering dibangun dan dikendalikan oleh satu departemen dalam sebuah organisasi. Mengingat subjek tunggal fokus departemen tersebut, data mart biasanya menggambar data dari hanya beberapa sumber. Sumber bisa sistem operasional internal, data warehouse pusat, atau data eksternal.

Jika dibandingkan dengan Data WarehouseData Mart memfokuskan pada kebutuhan pemakai terkait dalam sebuah departemen atau fungsi bisnis. Data Mart biasanya tidak mengandung data operasional secara rinci seperti pada Data Warehouse melainkan sebuah ringkasan yang diberikan kepada pengguna tertentu sehingga lebih mudah dipahami dan dinavigasikan.

Data Warehouse
Data Warehouse merupakan koleksi data yang memiliki sifat object-oriented, time-variant, dan terintegrasi dalam sebuah koleksi data sebagai pendukung dalam proses pengambilan keputusan. Data Warehouse berperan sebagai gudang data, yang nantinya data-data yang ada di dalamnya dapat digunakan untuk diolah sewaktu-waktu diperlukan. Data Warehouse digunakan untuk ruang lingkup yang lebih spesifik seperti pada suatu organisasi atau perusahaan.

Data Warehouse hanya dapat dilakukan dengan menggunakan 2 server atau lebih. Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep Data Warehouse itu sendiri. Dengan kata lain informasi dikumpulkan dari data yang terpisah yang kemudian disatukan menjadi sebuah ringkasan.
ETL (ExtractionTransformationLoading)
Proses ETL (ExtractionTransformationLoading) merupakan proses yang harus dilalui dalam pembentukan data warehouse. ETL adalah suatu proses mengambil dan mengirim data dari data sumber ke data warehouse. Dalam proses pengambilan data, data harus bersih agar didapat kualitas data yang baik. Contohnya ada nomor telepon yang invalid, ada kode buku yang tidak eksis lagi, ada beberapa data yang null, dan lain sebagainya. Pendekatan tradisional pada proses ETL mengambil data dari data sumber, meletakan pada staging area, dan kemudian mentransform dan meng-load ke data warehouse. Berikut adalah gambaran proses ETL.

Berdasarkan gambar Skema Proses ETL di atas, data diekstrak dari sumber data (data source) menggunakan data extraction tool melalui koneksi apapun yang tersedia. Kemudian data ditransormasikan menggunakan serangkaian rutinitas transformasi. Proses transformasi sebagian besar ditentukan oleh format data output yang diinginkan. Kualitas data dan pemeriksaan integritas dilakukan sebagai bagian dari proses transformasi dan tindakan korektif yang telah disisipkan pada proses trasformasi. Proses transformasi dan pemeriksaan integritas data dilakukan dalam staging area. Seteah data tersebut telah bertransformasi dalam format data yang ditargetkan, data tersebut kemudian dimuat ke dalam data warehouse dan data tersebut siap untuk dipresentasikan dalam bentuk informasi.

Proses ini biasanya dirancang dari end backwards, dimana required output harus dirancang terebih dahulu. Oleh karena itu, proses ini menginformasikan secara tepat data apa saja yang diperlukan dari sumber data. Rutinitas dirancang dan dikembangkan untuk melaksanakan proses yang ditulis khusus untuk mencapai output yang diinginkan dan hanya data yang diperlukan untuk output yang masuk dalam proses ekstraksi Selain itu, desainoutput harus menggabungkan semua fakta dan dimensi yang dibutuhkan untuk menyajikan baik pada tingkat agregasi yang dibutuhkan oleh Business Intelligence dan kebutuhan masa depan. Aturan bisnis yang menentukan bagaimana agregasi akan tercapai dan hubungan antara berbagai entitas baik sumber maupun sasaran yang dirancang dan selanjutnya dikodekan dalam suatu rutinitas untuk melaksanakan proses ETL. Pendekatan ini mengarah pada dependensi yang sempit di suatu rutinitas pada setiap tahapan proses. Terlepas dari kenyataan bahwa terdapat tiga tahap efektif, desain ETL sering dikarakteristikan sebagai proses monolitik dikarenakan target yang telah ditentukan dengan sangat jelas.

Selain tools yang disediakan oleh produsen database, terdapat sejumlah tools yang tersedia dipasaran yang menerapkan pendekatan ini dan menyediakan platform yang kuat, produktivitas, dan fleksibilitas.
ELT (Extraction, Loading, Transformation)
ELT merupakan variasi dari ETL (ExtractionTransformationLoading). ELT memungkinkan data mentah dimuat secara langsung pada data warehouse yang kemudian akan transformasi pada aata warehouse tersebut. Kemampuan ini sangat berguna untuk memproses set data yang besar yang diperlukan untuk Business Intelligence dan analisis data yang besar. Salah satu kemampuan utama ELT adalah pengurangan waktuloading jika dibandingkan dengan model ETL. Mengambil keuntungan dari kemampuan pemrosesan yang dibangun dalam infrastruktur data warehouse dapat mengurangi waktu yang dihabiskan data untuk melakukan transit dan lebih hemat biaya.


Berdasarkan gambar Skema Proses ELT di atas, data diekstrak dari sumber data menuju ke Staging Database menggunakan data extraction tool melalui konektivitas apapun yang tersedia. Sementara itu padastaging area, pemeriksaan integritas dan aturan bisnis dapat diimplementasikan sehingga dapat menghasilkan koreksi yang relevan. Sumber data kemudian dimuat ke dalam Data Warehouse berupa data validated dancleaned offline copy. Setelah data tersimpan pada data warehouse, proses transformasi akan dijalankan untuk melakukan pembentukan data untuk diubah menjadi target format data output.

Ekstraksi dan proses load dapat diisolasi dari proses transformasi. Hal ini memiliki sejumlah manfaat. Mengisolasi proses load dari proses transformasi akan menghilangkan ketergantungan yang melekat antara tahap-tahap ini, termasuk juga data yang diperlukan untuk melakukan transformasi. Proses ekstraksi danload dapat mencakup elemen data yang mungkin diperlukan di masa depan. Proses load bisa saja menggunakan seluruh sumber data dan memuatnya ke dalam data warehouse. Memisahkan proses memungkinkanproject untuk dipecah menjadi bagian yang lebih kecil sehingga menjadi lebih mudah untuk diprediksi dan dikelola.

Pemeriksaan integritas data pada staging area memungkinkan tahapan selanjutnya dalam proses isolasi dan ditangani pada titik yang paling tepat dalam proses. Pendekatan ini juga membantu untuk memastikan bahwa hanya data bersih dan telah diperiksa yang akan dimuat ke dalam data warehouse untuk ditransformasi. Mengisolasi transformasi dari proses load membantu untuk mendorong lebih banyak tahapan untuk mencapai desain data warehouse dan implementasinya. Hal ini mencakup sifat perubahan yang sedang berlangsung dari pembangunan data warehouse.

Kelebihan
1.    Project Management
Mampu membagi proses data warehouse menjadi tugas-tugas khusus dan terisolasi, memungkinkanproject yang akan dirancang pada basis tugas yang lebih kecil, oleh karena itu project dapat dipecah menjadi potongan-potongan yang dapat dengan mudah dikelola.
2.    Flexible & Future Proof
Secara umum, dalam pelaksanaan ELT semua data dari berbagai sumber dimuat ke dalam data warehouse sebagai bagian dari proses ekstraksi dan load. Keduanya dikombinasikan melakukan isolasi terhadap proses transformasi, berarti bahwa kebutuhan masa depan dapat dengan mudah dimasukkan ke dalam strukur data warehouse.
3.    Risk Minimization
Menghilangkan ketergantungan antara tahapan-tahapan dari proses pembangunan data warehousememungkinkan proses pembangunan untuk diisolasi, sehingga desain proses individu juga dapat diisolasi. Hal ini akan memberikan sebuah platform yang sangat baik untuk melakukan perubahan, pemeliharaan, dan manajemen sistem.
4.    Utilize Existing Hardware
Dalam pengimplementasian ELT dalam proses membangun data warehousetools yang telah disediakan pada database engine dapat digunakan atau menggunakan sebagian besar third-party tools untuk ELT yang dapat memanfaatkan kemampuan database engine, sehingga ELT dapat dijalankan pada hardware yang sama dengan database engine yang mendukung data warehousedengan mengerahkan hardware yang telah tersedia.
5.    Utilize Existing Skill Sets
Dengan menggunakan fungsi yang disediakan oleh database engine, investasi pada skill database yang tersedia dapat digunakan kembali untuk mengembangkan data warehouse karena tidak ada keterampilan baru yang perlu dipelajari melainkan pengalaman penuh dalam mengembangkan teknologi database engine-lah yang dimanfaatkan yang pada akhirnya akan mengurangi biaya dan resiko dalam proses membangun data warehouse.
Kekurangan
1.    Against The Norm
ELT adalah sebuah pendekatan yang muncul untuk rancangan data warehouse dan development. Sementara itu ELT telah terbukti bahwa berkali-kali selama penggunaannya yang telah diimplementasikan di seluruh dunia, membutuhkan perubahan pada pendekatan kemampuan dan desain terhadap metode tradisional. Meskipun, beberapa prinsip yang ada tetap benar untuk semua pendekatan  ELT tetap berbeda dalam berbagai hal. 
2.    Tools Availability
ELT adalah sebuah pendekatan teknologi yang baru dikembangkan sehingga masih memiliki keterbatasan pada tools yang dapat digunakan.

OLTP (Online Transaction Processing)
OLTP adalah singkatan dari Online Transaction Processing. OLTP merupakan suatu aplikasi atau program yang digunakan dalam operasional perusahaan sehari-hari seperti melakukan insert (memasukan data), update (mengubah data) dan delete (menghapus data) berbagai macam data, seperti penjualan, pembelian, produksi dan lain sebagainya. OLTP bertujuan untuk memproses suatu transaksi secara langsung melalui komputer yang tergabung didalam jaringan. Contohnya seperti aplikasi yang digunakan minimarket dalam melayani penjualan, jika ada suatu transaksi penjualan, seorang kasir dapat langsung memasukan data kedalam aplikasi yang terhubung didalam jaringan, sehingga pemrosesan data terbantu oleh adanya OLTP tersebut. Berdasarkan datanya, OLTP menggunakan data asli atau hari ini dan dapat di update setiap saat. OLTP biasanya memiliki ukuran yang relatif kecil.
OLAP (Online Analytical Processing)
OLAP adalah singkatan dari Online Analytical Processing. OLAP digunakan untuk pengambilan keputusan, OLAP berguna dalam melakukan analisis data yang sudah ada untuk membantu dalam pengambilan keputusan di masa yang akan datang. OLAP merupakan teknologi yang memproses data di dalam database dalam struktur multidimensi, menyediakan jawaban yang cepat untuk query dan analisis yang kompleks. Data yang disajikan biasanya merupakan suatu fungsi agregasi seperti summary (rangkuman), max (nilai maksimum), min (nilai minimum), average (rata-rata), dan sebagainya.

OLAP memiliki suatu konsep yang biasa disingkat menjadi (FASMI). Konsep ini diutarakan oleh Nigel Pendse dimana FASMI berarti FastAnalysisSharedMultidimensional, dan InformationFast berarti pengolahan jutaan data transaksi dapat dilakukan dengan cepat. Analysis berarti bahwa sisem dapat mencakup setiap Business Logic (Logika Bisnis) dan data analisa statistik yang relevan dengan data-data yang tersedia. Shared berarti bahwa sistem yang digunakan, di dalamnya telah diimplementasikan suatu sistem keamanan untuk menjaga kerahasiaan informasi, dimana informasi yang dibagikan disesuaikan dengan kebutuhan berdasarkan hak akses masing-masing pengguna. Multidimensional adalah suatu kunci kebutuhan terhadap penggunaan aplikasi OLAP, dimana setiap aplikasi harus selalu mengandung unsur multi dimensi. Information adalah semua data dan turunan informasi yang dibutuhkan, dimanapun dan bagaimanapun data yang akan digunakan data tersebut harus siap digunakan dan terus terhubung dengan aplikasi untuk diolah kembali menjadi informasi yang utuh.


DAFTAR PUSTAKA
[1] Pendse, Nigel. 2005. What is OLAP?The BI Verdict, Business Application Research Center, 2009. Exposition of "Fast Analysis of Shared Multidimensional Information" (FASMI).

[2] Davenport, Robert J. 2008. ETL vs ELT. http://www.dataacademy.com/files/ETL-vs-ELT-White-Paper.pdf. 15 Oktober 2015.

 [3] Jarke, Matthias, Maurizio Lenzerini, Yannis Vassiliou, Panos Vassiliadis. 2000. Fundamentals of Data Warehouses. Berlin: Springer-Verlag.

[4] Inmon, W.H. 2002. Building the Data Warehouse, Third Edition. Amerika Serikat: Wiley Computer Publishing.


[5] CBSolution. 2011. OLAP vs OLTP: What Makes The Difference. http://www.cbsolution.net/techniques/ontarget/olap_vs_oltp_what_makes. 15 Oktober 2015.

1 komentar: