Koefisien determinasi (R kuadrat)

Koefisien determinasi adalah proporsi varians total variabel yang dijelaskan oleh regresi. Koefisien determinasi, juga disebut R kuadrat, mencerminkan kebaikan kecocokan caral terhadap variabel yang ingin dijelaskannya.

Penting untuk diketahui bahwa hasil koefisien determinasi berosilasi antara 0 dan 1. Semakin dekat nilainya dengan 1, semakin besar kecocokan caral dengan variabel yang kita coba jelaskan. Sebaliknya, semakin mendekati nol, caral akan semakin tidak rapat dan oleh karena itu semakin tidak dapat diandalkan.

Dalam ekspresi sebelumnya kita memiliki pecahan. Jadi, mari kita pergi per bagian. Pertama, kita akan menganalisis pembilangnya, yaitu bagian atas.

Bagi mereka yang tidak tahu ekspresi varians , saya sarankan Anda membaca artikel tentang itu. Bagi mereka yang mengetahuinya, mereka mungkin menyadari bahwa itu adalah ekspresi varians, tetapi dengan dua perbedaan mendasar.

Perbedaan pertama adalah bahwa Y memiliki sirkumfleks atau yang secara didaktis oleh guru disebut “topi kecil”. Apa yang dirinci oleh topi kecil itu adalah bahwa Y adalah perkiraan caral dari apa yang menurut variabel penjelas adalah Y, tetapi itu bukan nilai sebenarnya dari Y, tetapi perkiraan Y.

Kedua, akan perlu untuk membagi dengan T. Yang, dalam kasus lain, dicatat sebagai N atau jumlah pengamatan. Namun, karena rumus penyebut juga akan membawanya, kita menghapus penyebut (bawah) dari kedua rumus untuk menyederhanakan ekspresi. Dengan cara ini lebih mudah untuk bekerja dengannya.

Selanjutnya, kita akan melakukan analisis yang sama dengan bagian penyebut (bagian bawah).

Dalam hal ini, satu-satunya perbedaan dari rumus varians asli adalah tidak adanya penyebutnya. Artinya, kita tidak membagi dengan T atau N. Dengan cara ini, setelah dua bagian dari ekspresi umum dari R kuadrat atau koefisien determinasi telah dijelaskan, kita akan melihat sebuah contoh.

Koefisien variasi

Koefisien korelasi linier

Analisis regresi

Interpretasi koefisien determinasi

Misalkan kita ingin menjelaskan jumlah gol yang dicetak Cristiano Ronaldo berdasarkan jumlah permainan yang dia mainkan. Kita berasumsi bahwa semakin banyak pertandingan yang dimainkan, semakin banyak gol yang akan dia cetak. Data tersebut berkaitan dengan 8 musim terakhir. Jadi, setelah mengekstrak data, caral menghasilkan estimasi berikut:

Seperti yang dapat kita lihat dari grafik, hubungan positif. Semakin banyak pertandingan yang dimainkan, tentu saja, semakin banyak gol yang dia cetak di musim ini. Fit, berdasarkan perhitungan R-squared, adalah 0,835. Ini berarti bahwa itu adalah caral yang perkiraannya cukup cocok dengan variabel nyata. Meskipun secara teknis itu tidak benar, kita dapat mengatakan bahwa caral tersebut menjelaskan 83,5% dari variabel sebenarnya.

Masalah Koefisien Determinasi

Masalah koefisien determinasi, dan alasan mengapa koefisien determinasi yang disesuaikan muncul, adalah bahwa hal itu tidak menghukum dimasukkannya variabel penjelas yang tidak signifikan. Artinya, jika lima variabel penjelas ditambahkan ke caral yang memiliki sedikit hubungan dengan gol yang dicetak Cristiano Ronaldo dalam satu musim, R kuadrat akan meningkat. Itulah sebabnya banyak pakar ekonometrika, statistik, dan matematika menentang penggunaan R kuadrat sebagai ukuran representatif dari goodness of the real fit.

Koefisien determinasi yang disesuaikan

Koefisien disesuaikan determinasi (adjusted R kuadrat) adalah ukuran yang mendefinisikan persentase dijelaskan oleh varians dari regresi dalam kaitannya dengan varians dari variabel dijelaskan. Artinya, sama dengan R kuadrat, tetapi dengan perbedaan: Koefisien determinasi yang disesuaikan menghukum dimasukkannya variabel.

Seperti yang telah kita katakan sebelumnya, koefisien determinasi caral meningkat bahkan jika variabel yang kita sertakan tidak relevan. Karena ini adalah masalah, untuk mencoba menyelesaikannya, kuadrat R yang disesuaikan adalah sedemikian rupa sehingga:

Dalam rumus, N adalah ukuran sampel dan k adalah jumlah variabel penjelas. Dengan pengurangan matematis, semakin tinggi nilai k, semakin jauh R-kuadrat yang disesuaikan dari R-kuadrat normal. Sebaliknya, pada nilai k yang lebih rendah, semakin dekat fraksi pusat ke 1 dan, oleh karena itu, semakin mirip R kuadrat yang disesuaikan dan R kuadrat normal.

Mengingat bahwa k adalah jumlah variabel penjelas, kita menyimpulkan bahwa ini tidak mungkin nol. Jika nol, tidak akan ada caral. Paling tidak, kita harus menjelaskan satu variabel dalam kaitannya dengan variabel lain. Karena k harus minimal 1, R-kuadrat yang disesuaikan dan R-kuadrat normal tidak dapat memiliki nilai yang sama. Selanjutnya, R-kuadrat yang disesuaikan akan selalu lebih kecil dari R-kuadrat normal.