[Thread] Study about big data

Halo mas,mba,kakak, kebetulan ane lagi belajar big data dan data science. Ada beberapa hal yang masih saya bingung soal big data, dan saya lagi cari pnjelasan dalam bahasa indonesianya hehehe.

Coba saya rumuskan beberapa masalah dengan cara yang sederhana, semoga bisa dipahami hehehe

  1. Mau disimpan dimana?
    Kebingungan pertama, kalau sudah kebanyakan data. Mau simpan di hardware atau di cloud? Seberapa sering mau diakses? Bagaimana dengan latensi? Jadi pertanyaan seperti ini akan muncul karena datanya berbeda2, value nya juga berbeda.

  2. Big Bias
    Cukup gampang untuk memahami bahwa kalau semakin banyak pilihan yang dimiliki, akan semakin membuat bingung. Sama juga seperti hal disini. Misalnya menganalisa 100 survei, mungkin (atau tentunya) ada lebih banyak masalah yg beragam dalam data tersebut.

  3. Positif Palsu
    Kadang kadang orang terburu-buru dalam ambil keputusan hanya berdasarkan subset data. Dalam praktek sebaiknya, “berpikir lebih lambat” dan bener2 merasionalisasi data karena klo berpikir cepat dalam artian tidak menganalisa data sepenuhnya itu yang akan menghasilkan positif palsu atau false positive.

  4. Big Complexity Issue
    Dengan cara sederhana, seseorang harus nemuin noise-nya atau harus menemukan jarum dari tumpukan jerami. Jadi akan selalu ada masalah kompleksitas yang besar

  5. Pemilihan tools yang tidak tepat
    Terkadang big data tools mengarahkan ke big data tools yang bukan dicari pengguna nya, dan pengguna mengira telah nemuin sistem yang tepat, tetapi yang terjadi adalah salah pemilihan tools dan system yang sesuai dengan kebutuhan.

Jadi itu menurut ane, segelintir masalah2 mendasar penggunaan big data yang ane alami

Ada banyak cara yg beda2 untuk jawab pertanyaan ini, karena ada banyak jenis data yg berbeda pula. Tapi secara umum, masalah paling mendasar adalah memastikan kalau cukup raw data (data mentah) untuk dapat dianalisa dan memiliki cara untuk memahami data sehingga bisa dikorelasikan informasi tersebut sampai membuat keputusan yang tepat.

Beberapa masalah umum lain nya seperti; data overload, data quality, data accuracy.

Koq gak ada yang bahas soal masalah moral/ privacy yang muncul saat ada karena peluang itu selalu ada sebagai masalah mendasar big data. Jangan karena sekarang bisa prediksi hal hal itu lalu mengesampingkan juga masalah hukum. Dan banyak juga issue2 masalah keamanan, untuk startup masih terhitung mudah, tetapi di organisasi besar issue ini menjadi jauh lebih sulit.

Big Data itu udah pasti ngomongin volume data yang sangat besar, dan gak bisa disimpan dalam sistem di database tradisional kayak RDMS. Beberapa masalah utama big data yang saya rangkum sebagai berikut:

  • Penyimpanan data yang sangat besar. Data yg tumbuh dengan kecepatan tinggi. Data ini termasuk terstruktur, tidak terstruktur atau semi terstruktur yang tidak bisa disimpan dalam database biasa dengan baris dan kolom.
  • Proses/ olah data yang sangat besar: Proses analisa data yg sangat besar tentu aja sulit. Untuk extract insight dari big data butuh waktu dan usaha. Dan proses ini bisa sangat mahal karena data yang complex dan dari berbagai format.
  • Keamanan Data: Major main concern nya dari organisasi besar tentunya adalah menjaga keamanan data. Enkripsi data besar sulit untuk dilakukan. Jika data gak aman, hackers bisa ekslpoitasi data kapanpun. Memberikan autentikasi ke seluruh anggota tim juga bisa berbahaya.

Semoga bisa menjawab diskusi ini ya.

Kualitas dan pemrosesan! Tanpa kualitas, analisis gak akan membantu (garbage in, garbage out). Pemrosesan dan penyimpanan juga jadi masalah.

Buat saya biaya jadi concern. Nilai informasi yang isinya kumpulan data gak harus berkorelasi dengan ukuran nya. Tapi biaya untuk menyimpan dan menganalisa kumpulan data pasti berkorelasi dengan ukuran nya.

Pada dasarnya ada 2 masalah mendasar dengan Big Data:

  1. Menyimpan data secara efektif
  2. Pengolahan data secara efektif
    Hanya itu

Terimakasih pencerahannya suhu suhu