Ruang Lingkup

Data Science dan Ilmu Pengetahuan: Matematika, Statistika dan Ilmu Komputer

Sains Data (Data Science) merupakan area riset multi-disiplin yang menggunakan metode, proses, algoritma dan sistem ilmiah untuk mengekstraksi pengetahuan dan insights dari sekumpulan data “besar” yang terstruktur maupun tidak terstruktur. Data Science adalah konsep yang serupa dengan data mining dan bigdata yaitu sama-sama memanfaatkan perangkat keras yang kuat, sistem pemrograman yang kuat, dan algoritma yang efisien untuk menyelesaikan masalah”.

Data Science menyatukan statistik, analisis data, machine learning dan metode terkait untuk memahami dan menganalisis fenomena aktual melalui data. Hal ini dilakukan memanfaatkan teknik dan teori dari bidang matematika, statistik, ilmu komputer, dan ilmu informasi (information science). Data Science dianggap sebagai “paradigma sains yang keempat”, setelah paragidma pertama, empiris yang artinya sesuai dengan fakta alamiah, kedua, teoretis yaitu diikuti dengan penjelasan ilmiah, ketiga paradigma komputasi yang artinya dapat dijelaskan perhitungannya secara matematis dan teknis, dan yang keempat adalah berdasarkan “data”. Paradigma sains yang keempat ini menegaskan bahwa segala sesuatu tentang sains dapat berubah karena dampak teknologi informasi dan volume data yang berlimpah.

Pada 2012 Harvard Business Review menyebutnya bahwa Data Science penjadi kunci apa beberapa pekerjaan paling diminati di abad ke-21. Sekarang istilah Data Science sering digunakan berpadanan dengan dengan konsep-konsep sebelumnya seperti business analytics, business intelligence, predictive modeling (pemodelan prediktif), dan statistik. Data Science merupakan bidang interdisipliner seperti bidang interdisipliner lainnya, menggunakan metodologi dan praktik dari seluruh akademisi dan industri, tetapi kemudian Data Science berubah menjadi disiplin baru. Data Science berbeda dari praktik analisis data yang ada di semua disiplin ilmu, yang hanya berfokus pada menjelaskan dataset. Data Science berupaya mencari pola yang dapat ditindaklanjuti dan konsisten untuk penggunaan prediksi. Tujuan rekayasa ini menempatkan Data Science di luar data analitik tradisional. Dewasa ini, data dalam beberapa disiplin ilmu dan bidang terapan adakalanya belum mendapatkan dukungan teori yang kuat, seperti beberapa data pada ilmu kesehatan dan ilmu sosial, dalam hal demikian penjelasan teoritik dapat diupayakan melalui Data Science untuk menghasilkan model prediksi yang kuat.

Sebagai paradigma sains yang keempat, Data Science akan selalu terlibat dalam sebuah peneitian dan pengembangan ilmu penge-tahuan. Berbagai variabel dalam jumlah besar, baik yang terstruktur maupun yang tidak, kerapkali bekerja menjelaskan berbagai hal yang terkait dengan peneitian dan pencarian informasi dan pengetahuan baru. Dalam peneitian yang tradisional, domain pengetahuan (domain knowledge) membutuhkan matematika/statistika terutama prediksi dan penjelasan mekanisme alamiah dalam hubungan antar variabel. Sementara pada perkembangan berikutnya terdapat perkembangan teknologi komputer yang memungkinkan peningkatan prediksi melalui statistical machine learning. Dalam hal ini hubungan antar variabel kurang diperhatikan, yang sangat diupayakan adalah presisi, akurasi dan kemampuan prediksi dan forecasting. Domain ilmu pengetahuan
kemudian mendapatkan manfaat dari peningkatan akurasi, presisi dri suati prediksi ini melalui kemajuan software development yang memudah-kan penelitian dan ilmu pengetahuan. Perkembang-an terkini terjadi pada putaran balik yang didorong oleh kenyataan bahwa pada saat yang sama, akurasi, presisi dari suatu prediksi atau forecasting tercapai, domain ilmu pengetahuan kembali membutuhkan penjelasan ilmiah atas fenomena alam melalui hubungan antar variabel dan/atau mencari variabel prediktor penting yang mungkin menjadi pengungkit (leverage) bagi sebuah perubahan. Ruang lingkup dan dampak sains data akan terus berkembang pesat dalam beberapa dekade mendatang ketika data ilmiah dan data tentang sains itu sendiri tersedia secarea berlebih di mana-mana.

Data Science dan Tantangan Masadepan Pendidikan Tinggi
Data Science bukan sekedar BigData, karena ukuran kumpulan data bukanlah kriteria untuk membedakan Data Science dan statistik. Data Science tidak didefinisikan oleh keterampilan komputasi menyortir kumpulan data besar, karena keterampilan ini sudah umum digunakan untuk analisis di semua disiplin ilmu. Data Science adalah bidang terapan yang sangat dibutuhkan namun program studi di perguruan tinggi saat ini belum memiliki sumberdaya yang cukup untuk mempersiapkan lulusannya untuk memiliki kemampuan dan keterampilan bagi lowongan pekerjaan itu. Sementara itu beberapa program sarjana/pascasarjana telah secara keliru menempatkan pelatihan data analitik dan statistik yang mereka miliki sebagai esensi dari Data Science. Para ahli statistika berusaha mengadopsi konsep inclusive concept of learning from data, dan memprioritaskan data mining alat prediksi yang berlaku di atas teori penjelasan. para ahli statistika membayangkan bidang terapan yang semakin inklusif yang tumbuh dari statistika tradisional dan seterusnya. Masa depan sains data diperkirakan akan menjadi lingkungan yang terus berkembang untuk sains terbuka di mana set data yang digunakan untuk publikasi akademik dapat diakses oleh semua peneliti. Masa depan sains data tidak hanya melebihi batas teori statistika dalam skala dan metodologi, tetapi Data Science akan merevolusi akademisi saat ini dan paradigma penelitian.

sumber foto: https://towardsdatascience.com/introduction-to-statistics-e9d72d818745