Dalam artikel ini, kita akan melakukan tur ke beberapa algoritme pembelajaran mesin yang paling populer. Akan sangat berguna untuk melakukan tur algoritme utama di bidang ini untuk mengetahui metode apa saja yang tersedia. Ada begitu banyak algoritme sehingga bisa terasa membingungkan ketika nama-nama algoritme dilontarkan dan Anda diharapkan untuk mengetahui apa itu algoritme dan di mana letaknya.
Saya ingin memberi Anda dua cara untuk memikirkan dan mengelompokkan algoritma yang mungkin Anda temui di lapangan.
Kedua pendekatan ini berguna, tetapi kita akan fokus pada pengelompokan algoritma berdasarkan kemiripan dan melakukan tur ke berbagai jenis algoritma yang berbeda.
Setelah membaca artikel ini, Anda akan memiliki pemahaman yang lebih baik tentang algoritma pembelajaran mesin yang paling populer untuk pembelajaran yang diawasi dan bagaimana mereka terkait.
Mari kita mulai.

Ada beberapa cara yang berbeda untuk memodelkan sebuah algoritme berdasarkan interaksinya dengan pengalaman atau lingkungan atau apa pun yang kita sebut sebagai data masukan. Dalam buku-buku pembelajaran mesin dan kecerdasan buatan, sangat populer untuk terlebih dahulu mempertimbangkan gaya pembelajaran yang dapat diadopsi oleh sebuah algoritma.
Hanya ada beberapa gaya belajar utama atau model pembelajaran yang dapat dimiliki oleh sebuah algoritma dan kita akan membahasnya di sini dengan beberapa contoh algoritma dan jenis masalah yang sesuai.
Taksonomi atau cara pengorganisasian algoritma pembelajaran mesin ini berguna karena memaksa Anda untuk memikirkan peran data input dan proses persiapan model dan memilih salah satu yang paling tepat untuk masalah Anda untuk mendapatkan hasil terbaik.

Data input disebut data pelatihan dan memiliki label atau hasil yang sudah diketahui, misalnya spam/bukan spam atau harga saham pada suatu waktu.
Sebuah model disiapkan melalui proses pelatihan di mana model ini diperlukan untuk membuat prediksi dan dikoreksi ketika prediksi tersebut salah. Proses pelatihan terus berlanjut hingga model mencapai tingkat akurasi yang diinginkan pada data pelatihan.
Contoh masalahnya adalah klasifikasi dan regresi. Contoh algoritmanya antara lain: Logistic Regression and the Back Propagation Neural Network.
Data masukan tidak diberi label dan tidak memiliki hasil yang diketahui.
Sebuah model disiapkan dengan menyimpulkan struktur yang ada dalam data masukan. Hal ini dapat dilakukan dengan mengekstrak aturan umum. Bisa juga melalui proses matematis untuk mengurangi redundansi secara sistematis, atau bisa juga untuk mengorganisir data berdasarkan kemiripan.
Contoh masalahnya adalah pengelompokan, pengurangan dimensi, dan pembelajaran aturan asosiasi. Contoh algoritmanya antara lain: algoritma Apriori dan K-Means.
Algoritme sering dikelompokkan berdasarkan kemiripan dalam hal fungsinya (cara kerjanya). Misalnya, metode berbasis pohon, dan metode yang terinspirasi dari jaringan syaraf.
Menurut saya, ini adalah cara yang paling berguna untuk mengelompokkan algoritma dan ini adalah pendekatan yang akan kita gunakan di sini.
Ini adalah metode pengelompokan yang berguna, tetapi tidak sempurna. Masih ada algoritma yang dapat dengan mudah masuk ke dalam beberapa kategori seperti Learning Vector Quantization yang merupakan metode yang terinspirasi oleh jaringan saraf dan metode berbasis instance. Ada juga kategori yang memiliki nama yang sama yang menggambarkan masalah dan kelas algoritma seperti Regresi dan Pengelompokan.
Kita dapat menangani kasus-kasus ini dengan membuat daftar algoritma dua kali atau dengan memilih kelompok yang secara subyektif paling cocok. Saya menyukai pendekatan yang terakhir ini, yaitu tidak menduplikasi algoritma untuk membuat segalanya tetap sederhana.
Pada bagian ini, kami mencantumkan banyak algoritma pembelajaran mesin yang populer yang dikelompokkan dengan cara yang menurut kami paling intuitif. Daftar ini tidak lengkap baik dalam kelompok maupun algoritmanya, tetapi menurut saya daftar ini cukup representatif dan akan berguna bagi Anda untuk mendapatkan gambaran umum.
Regresi berkaitan dengan pemodelan hubungan antara variabel yang secara iteratif disempurnakan dengan menggunakan ukuran kesalahan dalam prediksi yang dibuat oleh model.
Metode regresi adalah sebuah metode statistik yang sangat penting dan telah dikooptasi ke dalam pembelajaran mesin statistik. Hal ini mungkin membingungkan karena kita dapat menggunakan regresi untuk merujuk pada kelas masalah dan kelas algoritma. Sebenarnya, regresi adalah sebuah proses.
Algoritma regresi yang paling populer adalah:
Model pembelajaran berbasis contoh (Instance-based) adalah masalah keputusan dengan contoh atau contoh data pelatihan yang dianggap penting atau diperlukan untuk model.
Metode seperti ini biasanya membangun basis data contoh data dan membandingkan data baru dengan basis data tersebut menggunakan ukuran kemiripan untuk menemukan kecocokan terbaik dan membuat prediksi. Karena alasan ini, metode berbasis contoh juga disebut metode winner-take-all dan pembelajaran berbasis memori. Fokusnya adalah pada representasi instance yang tersimpan dan ukuran kemiripan yang digunakan di antara instance.
Algoritma berbasis contoh yang paling populer adalah:
Algoritma regularisasi adalah algoritma yang memperkenalkan informasi tambahan untuk menyeimbangkan model yang dibuat oleh algoritma pembelajaran mesin. Informasi ini biasanya dalam bentuk penalti pada kompleksitas model. Perluasan yang dibuat untuk metode lain (biasanya metode regresi) yang menghukum model berdasarkan kompleksitasnya, mendukung model yang lebih sederhana yang juga lebih baik dalam menggeneralisasi.
Algoritma regularisasi yang paling populer adalah:
Pohon keputusan (Decision Tree) adalah metode pembelajaran prediktif yang membuat prediksi dengan membangun model pohon keputusan dari data pelatihan. Pohon keputusan adalah salah satu algoritma pembelajaran mesin yang paling populer karena kejelasan dan kemampuannya untuk menggeneralisasi dengan baik. Pohon keputusan juga seringkali merupakan komponen penting dari algoritma yang lebih besar melalui ensemble.
Keputusan bercabang dalam struktur pohon sampai keputusan prediksi dibuat untuk catatan tertentu. Pohon keputusan dilatih pada data untuk masalah klasifikasi dan regresi. Pohon keputusan sering kali cepat dan akurat serta menjadi favorit dalam pembelajaran mesin.
Decision tree algorithms yang paling populer adalah:
Algoritma Bayesian adalah algoritma yang mengandalkan teorema Bayes yang sangat populer. Bayes Theorem memberikan cara untuk menghitung probabilitas posterior, P (c | x), dari sebuah hipotesis, c, berdasarkan probabilitas prior, P (c), dan probabilitas bukti, P (x | c). Probabilitas posterior adalah probabilitas hipotesis yang diperbarui setelah memperhitungkan bukti baru atau informasi. Probabilitas posterior dapat dihitung dengan mengalikan probabilitas prior dengan probabilitas bukti, dibagi dengan probabilitas bukti untuk semua kemungkinan hipotesis. Ini adalah rumus yang sangat berguna yang memungkinkan kita untuk memperbarui hipotesis kita secara iteratif saat kita memperoleh bukti baru.
Algoritma Bayesian yang paling populer adalah:
Pengelompokan (Clustering) adalah masalah pembelajaran tanpa pengawasan yang mencoba menemukan kelompok dalam data berdasarkan kemiripan. Algoritma pengelompokan mengevaluasi data tanpa pengawasan dengan mengukur kemiripan antara data dan memisahkan data ke dalam kelompok yang disebut cluster. Ini adalah proses yang penting dalam eksplorasi data dan memiliki banyak aplikasi di bidang ilmu data.
Metode pengelompokan biasanya disusun berdasarkan pendekatan pemodelan seperti berbasis pusat dan hirarki. Semua metode berkaitan dengan penggunaan struktur yang melekat pada data untuk mengatur data dengan sebaik-baiknya ke dalam kelompok-kelompok dengan kesamaan maksimum.
Algoritma pengelompokan yang paling populer adalah:
Pembelajaran aturan asosiasi adalah metode pembelajaran mesin untuk menemukan hubungan antara variabel dalam dataset. Ini juga dikenal sebagai pembelajaran aturan asosiasi yang sering digunakan dalam analisis keranjang belanja untuk menemukan kombinasi produk yang sering dibeli bersamaan.
Aturan-aturan ini dapat menemukan asosiasi yang penting dan berguna secara komersial dalam kumpulan data multidimensi besar yang dapat dieksploitasi oleh sebuah organisasi. Ini adalah metode yang populer untuk merekomendasikan produk kepada pelanggan berdasarkan produk yang telah mereka beli.
Algoritma pembelajaran aturan asosiasi yang paling populer adalah:
Jaringan saraf tiruan (ANN) atau jaringan saraf adalah model pembelajaran mesin yang terinspirasi oleh jaringan saraf biologis. Jaringan saraf adalah algoritma pembelajaran mesin yang sangat populer yang digunakan dalam berbagai aplikasi di bidang pengenalan pola dan klasifikasi objek. Jaringan saraf adalah model yang sangat kuat dan sangat fleksibel, dan dapat digunakan untuk memodelkan masalah yang sangat kompleks yang sulit untuk dipecahkan dengan metode lain.
Mereka adalah kelas pencocokan pola yang biasanya digunakan untuk masalah regresi dan klasifikasi, tetapi sebenarnya merupakan subbidang yang sangat besar yang terdiri dari ratusan algoritme dan variasi untuk semua jenis masalah.
Jaringan saraf tiruan yang paling populer adalah:
Deep Learning adalah subbidang pembelajaran mesin yang berfokus pada model yang sangat besar dan sangat kuat, biasanya disebut jaringan saraf dalam pembelajaran mesin. Ini adalah bidang yang sangat populer yang telah mengalami kemajuan besar dalam beberapa tahun terakhir dan telah mencapai hasil yang sangat baik dalam banyak masalah seperti pengenalan wajah dan suara.
Kategori algoritma fokus membangun jaringan saraf yang jauh lebih besar dan lebih kompleks dan, seperti yang telah dikomentari di atas, banyak metode yang berkaitan dengan kumpulan data yang sangat besar dari data analog berlabel, seperti gambar, teks, audio, dan video.
Deep learning algorithms yang paling populer adalah:
Pengurangan dimensi adalah masalah pembelajaran mesin yang mencoba menemukan dan menyajikan data yang kompleks dalam ruang yang lebih sedikit dan lebih mudah diinterpretasikan. Ini adalah masalah yang penting karena data yang kompleks sering kali memiliki ribuan fitur atau kolom.
Seperti metode pengelompokan, reduksi dimensi mencari dan mengeksploitasi struktur yang melekat pada data, tetapi dalam kasus ini dengan cara yang tidak diawasi atau untuk meringkas atau menggambarkan data dengan menggunakan lebih sedikit informasi.
Hal ini dapat berguna untuk memvisualisasikan data dimensi atau untuk menyederhanakan data yang kemudian dapat digunakan dalam metode pembelajaran yang diawasi. Banyak dari metode ini dapat diadaptasi untuk digunakan dalam klasifikasi dan regresi.
Algoritma pengurangan dimensi yang paling populer adalah:
Metode ensemble adalah model yang terdiri dari beberapa model yang lebih lemah yang dilatih secara independen dan prediksinya digabungkan dengan cara tertentu untuk membuat prediksi keseluruhan.
Banyak upaya dilakukan untuk menentukan jenis-jenis pembelajaran yang lemah yang akan digabungkan dan cara-cara untuk menggabungkannya. Ini adalah kelas teknik yang sangat kuat dan karenanya sangat populer.
Algoritma ensemble yang paling populer adalah:
Berikut mungkin gambar cheatsheet yang memudahkan Anda untuk mengilustrasikan algoritma pembelajaran mesin yang paling populer.
