Data Scientiest adalah salah satu profesi dalam bidang Informasi Teknologi atau IT, di era Big Data seperti sekarang pekerjaan ini menjadi populer.
Secara sederhana Data Scientiest pekerjaan yang berkaitan dengan data dari mulai mengumpulkan, mengelolanya, dan menganalisa untuk mendapat informasi yang dibutuhkan.
Pekerjaan Data Scientiest akan berkaitan dengan istilah Datawareouse, Data Mart, statisika, Bisnis Intelegen (apabila hasil informasi / pengetahunan nya untuk kebutuhan bisnis)
Statistika adalah ilmu yang mempelajari bagaimana merencanakan, mengumpulkan, menganalisis, menginterpretasi, dan mempresentasikan data.
Sedang tools yang populer digunakan untuk pekerjaan ini adalah bahasa pemrograman R dan Ptyhon
Sebenaranya perkerja yang berkaitan dengan meng-analisa data sudah ada sejak lama tetapi dulu dikenalnya dengan analis data, tetapi tidak sepopuler dan semenarik sekarang, karena sekarang era BiG Data IOT (Internet of Think) dan AI (Artificial Intelegent) yang mana "darahnya" adalah data sehingga profesi pekerjaan ini menjadi sangat penting.
Dapatkan dikatakan pokok dari perkerjaan Data Scientiest adalah melakukan data maining, berikut ini adalah penjelasan konsep data maining secara singkat adalah sebagai berikut :
1. PRE PROCESING DATA
1. PRE PROCESING DATA
a. Mengumpulkan Data
Sebuah tahapan mengumpulan data dari berbagai sumber yang relevan yang di istilah dengan Data Set atau Objek Data yang sumbernya dapat berasal dari jenis data:
- Database relational (RDMS) - (MySQL, Oracle, dsbnya)
- Database No SQL (Monggo DB, dll)
- File Text (CSV, XML)
- Excel atau semacamnya
- dll
Kemudian data-data tersebut bersifat OLTP (Online Transaction Processing) yaitu Data Set yang secara realtime aktif digunakan dalam aktifitas sehari-hari / data operasional (contoh: aplikasi di kasir disuper market, ketika terjadi penjualan maka akan dicatat langsung ke database artinya database tersebut selalu aktif digunakan untuk catat berbagai trasaksi yang terjadi)
b. Cleaning
Cleaning peroses untuk menghilangkan noise (yaitu data-data yang diberguna), memeriksa data yang inkonsisten membuang duplikasi data, memperbaiki kesalahan data
Ada istilah input yang bagus akan menghasikan output yang bagus. sehingga semakin bersih datanya sumber nya makan hasilnya akan semakin akurat.
2. DATA WAREHOUSE
Setelah data-data tersebut bersih, kita simpan data tersebut ditempat yang terpisah dengan OLTP, penyimpan data yang telah bersih ini disebut dengan Data Warehouse, jenis dataset di Data Warehouse dapat sama seperti yang dengan aslinya di OLTP atau menjadi jenis dataset yang berbeda. (Misalkan seluruh dari hasil pre-procecing (jenis RDMS, NoSQL, Text, Exel) menjadi sebuah database RDMS)
2.1 Data Mart
Dari Data Warehouse tersebut dapat data-data yang terkelompok berdasarkan tema, misalkan yang berkaitan dengan penjualan di sebut Data Mart Marketing, yang berkaitan dengan produksi adalah Data Mart Produksi, tujuannya adalah untuk meringankan pekerjaan saat melakukan maining data (penggalian data)
semua data yang berada di Dataware House distilahkan data OLAP (Online Analytical Processing), yaitu data ditujukan untuk kegiatan Analisa Data / Maining Data.
Beberapa pertanyaan penting :
a. Kenapa Data Maining tidak dilakukan dataset yang OLTP ?
- Karena untuk maining data diperlukan kombinasi dari berbagai sumber data
- Dataware House memilik ukuran penyimpanan yang besar
- Dataware House di optimalkan untuk proses read, sedang di OLTP dibutuhakan optimasi dalam create dan read yang cepat
- Karna proses maining data memakan banyak resource komputer besar maka akan berdampak kepenurunan kerja komputer apabila di digabungkan dengan Dataset OLTP
b. Berapa lama sekali dataset OLTP dimasukan ke Dataware House ?
- Tergantung dari kebutuhakn yang akan menikmati hasil pengeolah datanya (bisa 1 minggu sekali, 1 bulan sekali, terserah)
3. TRANSFORMASI DAN DATA MAINING
Adalah proses untuk cari dan menggali data yang ada di Data Warehouse dan Datamart, disini akan menggunakan tools seperti bahasa pemrograman dan berbagai algoritma yang dipadukan dengan ilmu statistika, yang kemudian hasilnya akan menjadi informasi / pengetahuan.
4. PRESENTASI / PENYAJIAN
Informasi atau pengetahun yang didapat dari proses maining kemudian akan disajikan dalam bentuk yang mudah di pahami oleh penggunana misalkan dalam bentuk chart / grafik, tabulasi / tabel, atau bentuk apapun yang mudah dipahami, apabila informasi atau pengetahuan ini dalam lingkungan bisnis dapat menjadi Bisnis Intelegen
Proses Data Maining memiliki tujuan pokok sebanyak empat yaitu :
1. Prediksi
Untuk membuat sebuah perkiraan akan sesuatu yang akan terjadi berdasarkan data-data history yang mengabungan berbagai variabel / aspek sehingga membentuk pola berdasarkan data yang dimiliki di data-warehouse.
2. Deteksi Anomali
Deteksi dini mendapatkan tanda-tanda yang terjadi dengan mengabungkan berbagai variabel / aspek sehingga membentuk pola berdasarkan data yang dimiliki di data-warehouse. jadi apabila terjadi ketidak wajaran akan sesuatu dapat dapat segera diketahui.
3. Klasifikasi
Klasifikasi merupakan suatu proses untuk menemukan model atau pengelompokan akan suatu data. sehingga ketika data telah terkelompok akan berguna untuk kita melakukan suatu aksi yang tepat.
4. Fungsi Asosiasi
Proses ini digunakan untuk menemukan suatu hubungan antara yang satu dengan yang lain dari sekumpulan data. ini berguna sekali untuk melihat perubahan yang terjadi pada suatu varibel akan mempengaruhi varibel lain.
Sehingga dapat disimpulkan data adalah sesuatu yang sangat berharga, lebih dari sekedar kumpulan angka atau hurup, tetapi data adalah sebuah kekuatan yang dapat membuat keputusan dan aksi yang lebih cepat dan benar.
Bayangkan seperti google & facebook yang memiliki data user hingga miliar user diseluruh dunia, yang disana kita memasukkan biodata kita, kemudian aktifitas yang kita post dan repost (foto, video, audio, text), kegiatan informasi yang kita cari, mencatat sumber lokasi kita ketika mengakases sistemnya. dari itu semua mereka dapat melakukan data maining seperti mengetahui yang terjadi di suatu wilayah, demografi suatu wilayah dan banyak lagi.
Sebagai contoh bisa kita liat iklan di google, sistem mereka bisa memberikan / menampilkan iklan yang mungkin kita sukai / tertarik (karena aktifitas kita selama menggunakan sistemnya tercatat sehingga dapat dilakukan data maining)
Di indonesia pada perusahan unicorn IT yang memiliki member / user mencapai belasan juta bahkan terus meningkat, dengan data-data tersebut dapat di lakukan data maining, sebagai contoh bisa diketahui suatu daerah sedang membutuhkan komiditi apa dan dapat memprediski dalam jangka waktu tertentu akan terjadi peningkat suatu komiditi setiap wilayah, dan dapat diketahui juga asosiasinya yang akan berdampak pada variabel yang lain.
Dan ini semua sesuatu yang luar biasa, karena untuk bisnis bisa di manfaatkan untuk berinvestasi atau berdagang, dan untuk pemerintah bisa dimanfaat untuk meningkat pelayanan.
Jadi data adalah sesuatu yang luar biasa, dan semakin banyak data bersih maka tingkat akurasinya akan semakin bagus.
No comments:
Post a Comment