Walton Electronics Co., Ltd.
Hubungi kami

Kontak Person : Walton-cara

Nomor telepon : 15986872308

Free call

Pembelajaran Mesin Membutuhkan Beberapa Langkah

July 18, 2022

pengantar

Menerapkan pembelajaran mesin (ML) adalah proses multi-langkah.Ini melibatkan pemilihan model, melatihnya untuk tugas tertentu, memvalidasinya dengan data uji, dan kemudian menyebarkan dan memantau model dalam produksi.Di sini, kami akan membahas langkah-langkah ini dan menguraikannya untuk memperkenalkan Anda ke ML.ML mengacu pada sistem yang, tanpa instruksi eksplisit, mampu belajar dan berkembang.Sistem ini belajar dari data untuk melakukan tugas atau fungsi tertentu.Dalam beberapa kasus, belajar.atau pelatihan yang lebih spesifik, terjadi dengan cara yang diawasi di mana keluaran yang salah mengakibatkan penyesuaian model untuk mendorongnya ke arah keluaran yang benar.Dalam kasus lain, pembelajaran tanpa pengawasan terjadi di mana sistem mengatur data untuk mengungkapkan pola yang sebelumnya tidak diketahui.Sebagian besar model ML mengikuti dua paradigma ini (pembelajaran dengan pengawasan vs. tanpa pengawasan).Sekarang mari kita telusuri apa yang dimaksud dengan model dan kemudian jelajahi bagaimana data menjadi bahan bakar untuk pembelajaran mesin.Model Pembelajaran Mesin Model adalah abstraksi dari solusi untuk pembelajaran mesin.Model mendefinisikan arsitektur, yang setelah dilatih, menjadi implementasi.Oleh karena itu, kami tidak menerapkan model.Kami menerapkan implementasi model yang dilatih dari data (lebih lanjut tentang ini di bagian berikutnya).Jadi model plus data plus pelatihan instance solusi ML yang setara (Gambar1).terjemahan diperlukan.Misalnya, memasukkan data teks ke dalam jaringan pembelajaran mendalam memerlukan pengkodean kata-kata ke dalam bentuk numerik yang umumnya merupakan vektor berdimensi tinggi yang diberikan berbagai kata yang dapat digunakan.Demikian pula, output mungkin memerlukan terjemahan dari bentuk numerik kembali ke bentuk tekstual.Model ML datang dalam banyak jenis, termasuk model jaringan saraf, model Bayesian, model regresi, model pengelompokan, dan banyak lagi.Model yang Anda pilih didasarkan pada masalah yang dihadapi.Dalam konteks jaringan saraf, model berkisar dari jaringan multi-lapisan dangkal hingga jaringan saraf dalam yang mencakup banyak lapisan

neuron khusus (unit pemroses).Jaringan saraf dalam juga memiliki berbagai model yang tersedia berdasarkan aplikasi target Anda.

Sebagai contoh:

●Jika aplikasi Anda berfokus untuk mengidentifikasi objek di dalam gambar, maka Convolutional Neural Network (CNN) adalah model yang ideal.CNN telah diterapkan untuk deteksi kanker kulit dan mengungguli dokter kulit rata-rata.

●Jika aplikasi Anda melibatkan prediksi atau pembuatan urutan kompleks (seperti kalimat bahasa manusia), maka Recurrent Neural Networks (RNN) atau jaringan Long-Short-Term-Memory (LSTM) adalah model yang ideal.LSTM juga telah diterapkan pada terjemahan mesin bahasa manusia.

●Jika aplikasi Anda melibatkan pendeskripsian konten gambar dalam bahasa manusia, maka kombinasi CNN dan LSTM dapat digunakan (di mana gambar diumpankan ke CNN dan output CNN mewakili input ke LSTM, yang memancarkan urutan kata).

●Jika aplikasi Anda melibatkan pembuatan gambar realistis (seperti lanskap atau wajah), maka Generative Adversarial Network (GAN) mewakili model stat-of-the-art saat ini.Model-model ini mewakili beberapa arsitektur jaringan saraf dalam yang lebih populer yang digunakan saat ini.Jaringan saraf dalam sangat populer karena dapat menerima data tidak terstruktur seperti gambar, video, atau informasi audio.Lapisan dalam jaringan membangun hierarki fitur yang memungkinkan mereka mengklasifikasikan informasi yang sangat kompleks.Jaringan saraf dalam telah menunjukkan kinerja mutakhir di sejumlah besar domain masalah.Namun seperti model ML lainnya, akurasinya bergantung pada data.Mari kita jelajahi aspek ini selanjutnya.

Data dan pelatihan

Data adalah bahan bakar yang mendorong pembelajaran mesin, tidak hanya dalam pengoperasian tetapi juga membangun solusi ML melalui pelatihan model.Dalam konteks data pelatihan untuk jaringan saraf dalam, penting untuk mengeksplorasi data yang diperlukan dalam konteks kuantitas dan kualitas.Jaringan saraf dalam membutuhkan data dalam jumlah besar untuk pelatihan.Satu aturan praktis untuk klasifikasi berbasis gambar adalah 1.000 gambar

per kelas.Tapi jawabannya tergantung pada kompleksitas model dan toleransi kesalahan.Beberapa contoh dari solusi ML produksi menghasilkan spektrum ukuran set data.Sistem deteksi dan pengenalan wajah membutuhkan 450.000 gambar, dan chatbot tanya-jawab dilatih dengan 200.000 pertanyaan yang dipasangkan dengan 2 juta jawaban.Kumpulan data yang lebih kecil juga dapat mencukupi berdasarkan masalah yang sedang dipecahkan.Solusi analisis sentimen yang menentukan polaritas opini dari teks tertulis hanya membutuhkan puluhan ribu sampel.Kualitas data sama pentingnya dengan kuantitas.Mengingat kumpulan data besar yang diperlukan untuk pelatihan, bahkan sejumlah kecil data pelatihan yang salah dapat menghasilkan solusi yang buruk.Bergantung pada jenis data yang diperlukan, data Anda mungkin melalui proses pembersihan.Ini memastikan bahwa kumpulan data konsisten, tidak memiliki data duplikat, akurat, dan lengkap (tidak memiliki data yang tidak valid atau tidak lengkap).Ada alat untuk mendukung proses ini.Memvalidasi data untuk bias juga penting untuk memastikan bahwa data tidak mengarah ke solusi ML yang bias.Pelatihan ML beroperasi pada data numerik, sehingga langkah pra-pemrosesan dapat diperlukan tergantung pada solusi Anda.Misalnya, jika data Anda adalah bahasa manusia, data tersebut harus diterjemahkan terlebih dahulu ke dalam bentuk numerik untuk diproses.Gambar dapat diproses sebelumnya untuk konsistensi.Misalnya, gambar yang dimasukkan ke dalam jaringan saraf dalam akan diubah ukurannya dan dihaluskan untuk menghilangkan noise (di antara operasi lainnya).Salah satu masalah terbesar dalam ML adalah memperoleh set data untuk melatih solusi ML Anda.Ini bisa menjadi upaya terbesar tergantung pada masalah Anda karena mungkin tidak ada dan memerlukan upaya terpisah

untuk menangkap.Akhirnya, dataset harus disegmentasi antara data pelatihan dan data uji.Bagian pelatihan digunakan untuk melatih model, dan setelah dilatih, data uji digunakan untuk memvalidasi keakuratan solusi

 

Hubungi kami

Masukkan Pesan Anda