Bahaya Data Menipu Bagian 2 – Proporsi Dasar dan Statistik Buruk
Selami korelasi, proporsi dasar, statistik ringkasan, dan ketidakpastian dengan lebih mudah!
Ini adalah lanjutan dari artikel sebelumnya. Artikel pertama fokus pada bagaimana visualisasi bisa digunakan untuk menyesatkan, mendalami bentuk presentasi data yang banyak digunakan dalam urusan publik.
Nah, di artikel ini, kita akan menyelam lebih dalam lagi. Kita akan melihat bagaimana kesalahpahaman tentang ide-ide statistik bisa jadi lahan subur untuk tertipu oleh data. Spesifiknya, artikel ini akan membahas bagaimana korelasi, proporsi dasar, statistik ringkasan, dan salah tafsir ketidakpastian dapat menyesatkan banyak orang.
Langsung saja, yuk!
DAFTAR ISI
Korelasi Bukan Berarti Kausalitas! 🙅♀️
Mari kita mulai dengan "klasik" biar mood kita pas untuk ide-ide yang lebih kompleks. Sejak pelajaran statistik paling awal di sekolah dasar, kita semua sudah diberitahu bahwa korelasi itu tidak sama dengan kausalitas.
Kalau iseng googling atau baca-baca, mungkin akan ditemukan "statistik" yang menunjukkan korelasi tinggi antara konsumsi rokok dengan harapan hidup rata-rata [1]. Menarik, ya? Jadi, apakah itu berarti kita semua harus mulai merokok biar hidup lebih lama?
Tentu saja tidak! Ada satu faktor pengganggu yang sering terlupakan: membeli rokok butuh uang, dan negara-negara dengan kekayaan lebih tinggi tentu saja punya harapan hidup yang lebih tinggi. Tidak ada hubungan kausal antara rokok dan usia. Contoh ini bagus karena begitu jelas menyesatkan dan menyoroti poinnya dengan baik. Secara umum, penting untuk waspada terhadap data apa pun yang hanya menunjukkan hubungan korelasional.
Dari sudut pandang ilmiah, korelasi bisa diidentifikasi lewat observasi, tapi satu-satunya cara untuk mengklaim kausalitas adalah dengan benar-benar melakukan uji acak terkontrol untuk faktor-faktor pengganggu potensial—sebuah proses yang cukup rumit.
Penting untuk memulai di sini karena, meskipun ini pengantar, konsep ini juga menyoroti ide kunci yang mendasari pemahaman data secara efektif: Data hanya menunjukkan apa yang ditunjukkannya, tidak lebih dan tidak kurang.
Ingat itu baik-baik saat kita melangkah maju.
Ingat Proporsi Dasar! 💡
Pada tahun 1978, Dr. Stephen Casscells dan timnya secara terkenal mengajukan pertanyaan berikut kepada sekelompok 60 dokter, residen, dan mahasiswa di Harvard Medical School:
"Jika tes untuk mendeteksi penyakit yang prevalensinya 1 dari 1.000 memiliki tingkat positif palsu 5%, berapa peluang seseorang yang hasil tesnya positif benar-benar mengidap penyakit tersebut, dengan asumsi tidak tahu apa-apa tentang gejala atau tanda-tanda orang tersebut?"
Meskipun disajikan dalam istilah medis, pertanyaan ini sebenarnya tentang statistik. Oleh karena itu, ini juga punya kaitan dengan data science. Luangkan waktu sebentar untuk memikirkan jawaban Anda sendiri sebelum melanjutkan membaca.
Jawabannya adalah (sekitar) 2%. Nah, kalau membacanya dengan cepat (dan belum update dengan statistik), mungkin akan menebak jauh lebih tinggi.
Ini jelas terjadi pada orang-orang di sekolah kedokteran. Hanya 11 dari 60 orang yang menjawab pertanyaan dengan benar, dengan 27 dari 60 bahkan menebak setinggi 95% dalam respons mereka (kemungkinan hanya mengurangi tingkat positif palsu dari 100).
Sangat mudah untuk berasumsi bahwa nilai sebenarnya harus tinggi karena hasil tes positif, tetapi asumsi ini mengandung kesalahan penalaran krusial: Gagal memperhitungkan prevalensi penyakit yang sangat rendah dalam populasi.
Dengan kata lain, jika hanya 1 dari setiap 1.000 orang yang mengidap penyakit tersebut, hal ini perlu diperhitungkan saat menghitung kemungkinan orang acak mengidap penyakit tersebut. Probabilitas tidak hanya bergantung pada hasil tes positif. Segera setelah akurasi tes turun di bawah 100%, pengaruh base rate (tingkat dasar) akan berperan sangat signifikan.
Secara formal, kesalahan penalaran ini dikenal sebagai base rate fallacy (kekeliruan tingkat dasar).
Untuk melihat ini lebih jelas, bayangkan hanya 1 dari setiap 1.000.000 orang yang mengidap penyakit tersebut, tetapi tesnya masih memiliki tingkat positif palsu 5%. Apakah masih akan berasumsi bahwa hasil tes positif segera menunjukkan peluang 95% untuk mengidap penyakit tersebut? Bagaimana jika 1 dari satu miliar?
Base rates sangat penting. Ingat itu.
Ukuran Statistik BUKANLAH Data Itu Sendiri! 🤯
Mari kita lihat kumpulan data kuantitatif berikut (13 di antaranya, tepatnya), yang semuanya divisualisasikan sebagai scatter plot. Salah satunya bahkan berbentuk dinosaurus!
Gambar 1: Berbagai Scatter Plot dengan Statistik Ringkasan yang Sama. Gambar oleh Penulis. Dibuat menggunakan kode yang tersedia di bawah lisensi MIT di https://jumpingrivers.github.io/datasauRus/
Apakah melihat sesuatu yang menarik tentang kumpulan data ini?
Berikut adalah seperangkat statistik ringkasan untuk data tersebut:
- X-Mean: 54.26
- Y-Mean: 47.83
- X-SD (Standard Deviation): 16.76
- Y-SD: 26.93
- Correlation: -0.06
Jika bertanya-tanya mengapa hanya ada satu set statistik, itu karena semuanya sama! Setiap satu dari 13 grafik di atas memiliki mean, standard deviation, dan korelasi yang sama antar variabel.
Kumpulan 13 set data yang terkenal ini dikenal sebagai Datasaurus Dozen [5], dan diterbitkan beberapa tahun lalu sebagai contoh nyata mengapa statistik ringkasan tidak selalu bisa dipercaya. Ini juga menyoroti nilai visualisasi sebagai alat untuk eksplorasi data. Dalam kata-kata ahli statistik terkenal John Tukey,
"Nilai terbesar dari sebuah gambar adalah ketika ia memaksa kita untuk memperhatikan apa yang tidak pernah kita duga akan kita lihat."
Memahami Ketidakpastian 🤔
Sebagai penutup, penting untuk berbicara tentang sedikit variasi data menipu, tetapi yang sama pentingnya: tidak memercayai data yang sebenarnya benar. Dengan kata lain, penipuan palsu.
Grafik berikut diambil dari sebuah penelitian yang menganalisis sentimen judul berita yang diambil dari media berita berhaluan kiri, kanan, dan sentris [6]:
Gambar 2: Sentimen Rata-rata Tahunan Judul Berita Berdasarkan Ideologi Media “Average yearly sentiment of headlines grouped by the ideological leanings of news outlets” oleh Penulis studi: David Rozado, Ruth Hughes, Jamin Halberstadt dilisensikan di bawah CC BY 4.0. Untuk melihat salinan lisensi ini, kunjungi https://creativecommons.org/licenses/by/4.0/?ref=openverse.
Ada cukup banyak yang terjadi pada grafik di atas, tetapi ada satu aspek khusus yang perlu diperhatikan: garis vertikal yang memanjang dari setiap titik yang diplot. Anda mungkin pernah melihat ini sebelumnya. Secara formal, ini disebut error bars (batang kesalahan), dan ini adalah salah satu cara para ilmuwan sering menggambarkan ketidakpastian dalam data.
Perlu ditekankan lagi. Dalam statistik dan data science, "error" itu identik dengan "ketidakpastian." Yang krusial, ini tidak berarti ada sesuatu yang salah atau tidak benar dengan apa yang ditunjukkan. Ketika sebuah grafik menggambarkan ketidakpastian, itu menggambarkan ukuran yang dihitung dengan cermat dari rentang nilai dan tingkat kepercayaan pada berbagai titik dalam rentang tersebut. Sayangnya, banyak orang hanya menganggapnya bahwa siapa pun yang membuat grafik itu pada dasarnya sedang menebak.
Ini adalah kesalahan penalaran yang serius, karena dampaknya berlipat ganda: Tidak hanya data yang ada disalahartikan, tetapi keberadaan kesalahpahaman ini juga berkontribusi pada kepercayaan masyarakat yang berbahaya bahwa sains tidak dapat dipercaya. Bersikap jujur tentang batasan pengetahuan sebenarnya harus meningkatkan kepercayaan pada keandalan suatu klaim, tetapi salah mengartikan batasan itu sebagai pengakuan atas kesalahan justru mengarah pada efek sebaliknya.
Belajar cara menafsirkan ketidakpastian itu menantang tapi sangat penting. Minimal, tempat yang baik untuk memulai adalah menyadari apa yang sebenarnya ingin disampaikan oleh apa yang disebut "kesalahan" itu.
Rekap & Pemikiran Akhir 🚀
Ini dia contekan anti-data menipu buat kamu:
- Korelasi ≠ kausalitas. Selalu cari faktor pengganggunya!
- Ingat proporsi dasar. Probabilitas suatu fenomena sangat dipengaruhi oleh prevalensinya dalam populasi, tidak peduli seberapa akurat tes (kecuali akurasi 100%, yang jarang terjadi).
- Hati-hati dengan statistik ringkasan. Mean dan median hanya bisa membantumu sejauh itu; kamu perlu menjelajahi datamu secara visual.
- Jangan salah paham soal ketidakpastian. Itu bukan "kesalahan"; itu adalah deskripsi yang dipertimbangkan dengan cermat tentang tingkat kepercayaan.
Ingatlah poin-poin ini, dan kamu akan berada di posisi yang baik untuk menghadapi masalah data science berikutnya yang menghampirimu.
Referensi
[1] How Charts Lie, Alberto Cairo
[2] https://pmc.ncbi.nlm.nih.gov/articles/PMC4955674
[4] https://visualizing.jp/the-datasaurus-dozen
[6] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0276367
Sumber: Murtaza Ali (8 Mei 2025).
📊 Kebutuhan Data Anda Butuh Penanganan yang Presisi
Kualitas keputusan Anda ditentukan oleh kualitas data di belakangnya. Maka penting untuk memastikan bahwa setiap elemen data dikelola dengan tepat, bersih, dan dapat ditindaklanjuti.
Saya menawarkan jasa data entry, data cleaning, data analysis, hingga manajemen basis data secara profesional—dengan pendekatan yang disesuaikan berdasarkan konteks bisnis atau proyek Anda.
Pengalaman saya sebagai freelancer penuh waktu sejak 2006 telah membentuk standar kerja yang efisien, terstruktur, dan dapat diandalkan.
📌 Online-based workflow
📌 Tersedia juga untuk on-site consultation (dengan penyesuaian)
📅 Jadwal: Sabtu–Kamis | 08.00–17.30 WIB
📩 Hubungi untuk diskusi awal (tanpa biaya):
WhatsApp: 0857-1587-2597 | 0813-8229-7207
Email:
