Apa itu Regresi Ridge dan Lasso?

Analisis berbasis Regresi Linier bekerja berdasarkan prinsip persamaan garis yang menyatakan, y= mx + c di mana y adalah nilai yang ingin kita cari dalam arah y terhadap kemiringan garis yang menghubungkan semua titik x ke penuh dan intersep yang memotong kemiringan pada sumbu y. Persamaan ini percaya bahwa untuk setiap analisis prediksi yang berisi variabel kontinu yang bukan data diskrit, prediksi dapat dilakukan dengan mengikuti hukum garis ini.

Di sini garis yang paling sesuai dengan kemiringan tertentu dilewatkan melalui titik-titik x atau ciri-ciri independen yang menangkap hampir semua titik dalam panjangnya. Sisa poin yang tidak tertangkap diberikan prediksi berdasarkan kedekatannya dengan garis yang paling sesuai. Meskipun teknik ini sangat populer di komunitas Ilmu Data, ada batasan terkait dengan ini. Keterbatasan dengan regresi linier adalah ia gagal menangkap fitur-fitur kecil dan karenanya mengabaikannya. Juga, regresi linier tidak dapat diterapkan pada data yang tersebar tidak merata dan tidak linier.

Untuk memecahkan masalah nonlinier semacam ini, dua sister dari regresi linier disebut regresi Ridge dan Lasso atau kadang-kadang disebut regularisasi L1 dan L2. Kita menggunakan Ridge dan Lasso untuk mengubah bias tinggi dan varians tinggi menjadi bias rendah dan varians rendah sehingga model kita dapat disebut model umum yang menunjukkan jumlah akurasi yang sama dalam dataset pelatihan dan pengujian. Konsep dasar dimana ridge dan lasso ini bekerja adalah mengutamakan minimalisasi fungsi biaya. Ini adalah dua hiperparameter yang menghilangkan masalah yang terkait dengan regresi linier normal dan definisinya bersama dengan beberapa wawasan diberikan di bawah ini:

Regresi Ridge (Regularisasi L1)

Rumus untuk Regresi Ridge diberikan sebagai:

i=1 hingga n (yy^) 2 + (kemiringan) 2

Kita mencoba untuk mengurangi nilai persamaan ini yang juga disebut fungsi kerugian atau biaya. Nilai berkisar dari 0 hingga 1 tetapi dapat berupa bilangan berhingga yang lebih besar dari nol.

Dalam rumus regresi ridge di atas, kita melihat tambahan parameter dan kemiringan, sehingga berarti mengatasi masalah yang terkait dengan model regresi linier sederhana. Hal ini dilakukan terutama dengan memilih garis yang paling cocok di mana penjumlahan biaya dan fungsi menjadi minimum daripada hanya memilih fungsi biaya dan meminimalkannya. Jadi dengan cara ini, ini membantu dalam memilih garis yang paling sesuai dengan akurasi yang lebih besar.

Arti lereng curam dalam Regresi

Untuk perubahan satuan pada arah x, terjadi perubahan drastis nilai kemiringan antara dua titik. Sehingga apabila terjadi kemiringan yang curam maka mengarah pada kondisi overfitting. Selain itu, kita dapat mengatakan bahwa kita hanya menghukum (fitur yang memiliki kemiringan lebih tinggi) titik kemiringan yang lebih tinggi ke yang lebih rendah sehingga kita mencapai garis yang paling sesuai dengan lebih akurat.

Pemilihan garis yang paling cocok dalam regresi punggungan ini tidak dilakukan secara instan melainkan melalui iterasi yang berurutan seperti yang dilakukan dalam penurunan gradien dan kemudian yang paling cocok dipilih. Jadi akhirnya ketika garis kecocokan terbaik tercapai maka kita dapat mengatakan bahwa dengan peningkatan unit dalam arah x akan ada lebih sedikit perubahan nilai untuk kemiringan yaitu, kemiringan yang kurang curam dan meminimalkan masalah overfitting. Pemilihan lambda dalam persamaan dilakukan melalui validasi silang. Juga, jika nilai tinggi mengatakan 0,6 maka garis akan cenderung mendekati 0 sehingga menimbulkan garis lurus.

Regresi Lasso (Regularisasi L2)

Rumus untuk laso sedikit berbeda dari regresi ridge sebagai:

i=1 sampai n (yy^) 2 + |kemiringan|

Sini || berarti besarnya kemiringan

Regresi Lasso tidak hanya membantu dalam mengatasi skenario overfitting tetapi juga membantu dalam pemilihan fitur. Cara ini membantu dalam pemilihan fitur adalah, ia menghilangkan fitur-fitur yang nilai kemiringannya mendekati 0 seperti yang tidak terjadi dalam kasus regresi Ridge karena dalam regresi Ridge nilainya cenderung mendekati mendekati 0 tetapi tidak konvergen ke 0. Namun, di sini seperti yang kita tidak mengambil kuadrat dan hanya mengambil nilainya sehingga akan mendekati 0 dan kita akan mengabaikan fitur tersebut.

Kesimpulan

Kita dapat menyimpulkan bahwa Ridge dan Lasso dapat membantu model Regresi Linier utama untuk berkinerja lebih baik dan memberikan prediksi yang baik jika masalah overfitting dan pemilihan fitur diselesaikan dan karenanya memberikan akurasi yang lebih tinggi dalam analisis prediksi.

Baca lebih lajut:

  • Apa itu Scikit Learn dalam Machine Learning?
  • Berbagai jenis teknologi DSL tersedia untuk Koneksi Internet