Salam.
Jika kita ingin meneliti hubungan korelasi antara dua variabel, maka lazimnya kita menguji dulu data tersebut, apakah lulus uji asumsi atau tidak. uji asumsi yang digunakan untuk penelitian korelasional adalah uji normalitas dan uji linearitas.
jika data yang kita miliki tidak lulus uji asumsi, maka kita tetap bisa menghitung derajat keterhubungannya, tapi secara non-parametrik. artinya adalah, kita tidak memperhatikan aspek linearitas dan normalitas dari data tersebut (kita tetap hitung korelasinya, walaupun data ga normal dan ga linier).
pertanyaannya, kenapa untuk uji parametrik harus memperhatikan linearitas dan normalitasnya?
Tokoh statistik Francis Anscombe (dalam publikasinya "Graphs in Statistical Analysis", 1973) memberikan gambaran berupa Anscombe's Quartet, bahwa sebuah koefisien korelasi yang sama, dapat digambarkan dengan 4 kondisi sebaran data yang berbeda.
dalam setiap gambar tersebut, semua data memiliki deskripsi yang sama:
- keempat gambar tersebut memiliki Mean x = 9
- semuanya juga memiliki Mean y = 7,50
- r Pearson Product Moment = 0,816 (jika diterjemahkan berdasarkan tabel koefisien korelasi Guilford, maka artinya "ada korelasi tinggi")
so, walaupun semua data memiliki nilai statistik deksriptif yang sama, tapi ternyata kondisi masing-masing kelompok data tersebut sangat berbeda.
Gambar X1 (kiri atas) menggambarkan kondisi data yang tersebar secara normal, dan juga linier
Gambar X2 (kanan atas) menggambarkan kondisi data yang tidak tersebar secara normal, dan juga tidak linier.
Gambar X3 (kiri bawah) menunjukkan pola data yang sangat linier. dan hanya karena satu data yang sangat menyimpang extreme, menyebabkan koefisien korelasi menjadi 0,816 (jika data tersebut dihilangkan, koefisien korelasinya menjadi 1, alias korelasi sempurna).
Gambar X4 (kanan bawah) menunjukkan bahwa angka korelasi tinggi (0,816) ternyata bisa dibentuk oleh data yang tidak linear.
Beware...
melihat fenomena tersebut, Anscombe menegaskan dua hal:
- pentingnya penggambaran grafik data (scatterplot) sebelum melakukan analisis
- kita harus beware atas kemungkinan adanya penyimpangan analisis jika hanya disandarkan pada deskripsi properti statistik sebuah variabel.
Semoga bermanfaat...
Ince Ahd Furqan