Pengenalan ucapan mengacu pada komputer yang menafsirkan kata-kata yang diucapkan oleh seseorang dan mengubahnya menjadi format yang dapat dimengerti oleh mesin. Tergantung pada tujuan akhirnya, itu kemudian diubah menjadi teks atau suara, atau format lain yang diperlukan. Misalnya, Siri dari Apple dan Alexa dari Google menggunakan pengenalan suara yang didukung AI untuk memberikan dukungan suara atau teks, sedangkan aplikasi suara ke teks seperti Google Dictate mentranskripsikan kata-kata yang Anda didiktekan menjadi teks.
Aplikasi AI pengenalan suara telah mengalami pertumbuhan yang signifikan dalam beberapa waktu terakhir karena semakin banyak bisnis yang mengadopsi asisten digital dan dukungan otomatis untuk menyederhanakan layanan mereka. Asisten suara, perangkat rumah pintar, mesin pencari, dll adalah beberapa contoh di mana pengenalan suara menjadi menonjol.
Data diperlukan untuk melatih model pengenalan ucapan karena memungkinkan model mempelajari hubungan antara rekaman audio dan transkripsi kata-kata yang diucapkan. Dengan melatih kumpulan data rekaman audio yang besar dan transkripsi yang sesuai, model dapat belajar mengenali pola dalam audio yang sesuai dengan berbagai kata dan fonem (bunyi ucapan).
Misalnya, jika model dilatih pada kumpulan data besar rekaman audio orang yang berbicara bahasa Inggris, model tersebut akan belajar mengenali pola umum dalam audio yang sesuai dengan kata dan fonem bahasa Inggris. Pola-pola ini mungkin mencakup spektrum frekuensi fonem yang berbeda, durasi bunyi vokal dan konsonan yang berbeda, dan konteks penggunaan kata yang berbeda. Dengan mempelajari pola-pola ini, model kemudian dapat mengambil rekaman audio baru sebagai masukan dan menggunakan apa yang telah dipelajari untuk menyalin kata-kata yang diucapkan dalam audio. Tanpa kumpulan data rekaman dan transkripsi audio yang besar dan beragam, model tidak akan memiliki cukup data untuk mempelajari pola-pola ini dan tidak akan mampu melakukan akurasi pengenalan ucapan.
Apa itu data pengenalan suara?
Data pengenalan ucapan mengacu pada rekaman audio ucapan manusia yang digunakan untuk melatih sistem pengenalan suara. Data audio ini biasanya dipasangkan dengan transkripsi teks ucapan, dan penyedia layanan bahasa siap membantu.
Audio dan transkripsi dimasukkan ke algoritma pembelajaran mesin sebagai data pelatihan. Dengan begitu, sistem mempelajari cara mengidentifikasi akustik bunyi ujaran tertentu dan makna di balik kata-katanya.
Ada banyak sumber data ucapan yang tersedia, termasuk corpora pidato publik atau kumpulan data yang sudah dikemas sebelumnya, namun dalam banyak kasus, Anda perlu bekerja sama dengan penyedia layanan data untuk mengumpulkan data ucapan Anda sendiri melalui pengumpulan jarak jauh atau pengumpulan langsung. . Anda dapat menyesuaikan kumpulan data ucapan berdasarkan variabel seperti bahasa, demografi pembicara, persyaratan audio, atau ukuran koleksi.
Data yang dikumpulkan perlu dianotasi untuk pelatihan model pengenalan suara lebih lanjut.
Apa itu Anotasi Ucapan atau Audio?
Agar sistem apa pun dapat memahami ucapan atau suara manusia, diperlukan penggunaan kecerdasan buatan (AI) atau pembelajaran mesin. Model pembelajaran mesin yang dikembangkan untuk bereaksi terhadap ucapan manusia atau perintah suara perlu dilatih untuk mengenali pola bicara tertentu. Data audio atau ucapan dalam jumlah besar yang diperlukan untuk melatih sistem tersebut harus melalui proses anotasi atau pelabelan terlebih dahulu, bukan dimasukkan ke dalam file audio mentah.
Secara efektif, anotasi audio atau ucapan adalah teknik yang memungkinkan mesin memahami kata-kata yang diucapkan, emosi, sentimen, dan niat manusia. Sama seperti jenis anotasi lainnya untuk gambar dan video, anotasi audio memerlukan upaya manual manusia di mana pakar pelabelan data dapat menandai atau memberi label pada bagian tertentu dari klip audio atau ucapan yang digunakan untuk pembelajaran mesin. Salah satu kesalahpahaman umum adalah bahwa anotasi audio hanyalah transkripsi audio, yang merupakan hasil konversi kata-kata lisan menjadi kata-kata tertulis. Anotasi audio lebih dari sekadar transkripsi audio, menambahkan pelabelan ke setiap elemen relevan dari klip audio yang sedang ditranskripsi.
Anotasi ucapan adalah proses menambahkan metadata ke data bahasa lisan. Metadata ini dapat mencakup transkripsi kata-kata yang diucapkan, serta informasi tentang jenis kelamin pembicara, usia, aksen, dan karakteristik lainnya. Anotasi ucapan sering digunakan untuk membuat data pelatihan untuk pemrosesan bahasa alami dan sistem pengenalan ucapan.
Ada beberapa jenis anotasi ucapan atau audio, termasuk:
Transkripsi:
Proses menyalin kata-kata yang diucapkan menjadi teks tertulis.
Penandaan bagian dari ucapan:
Proses mengidentifikasi dan memberi label bagian-bagian ujaran dalam sebuah kalimat, seperti kata benda, kata kerja, dan kata sifat.
Pengakuan entitas bernama:
Proses mengidentifikasi dan memberi label pada kata benda dan entitas bernama lainnya dalam sebuah kalimat, seperti orang, organisasi, dan lokasi.
Anotasi tindakan dialog:
Proses memberi label pada jenis tindakan yang dilakukan dalam percakapan, seperti mengajukan pertanyaan atau membuat permintaan.
Identifikasi pembicara:
Proses mengidentifikasi dan memberi label pada pembicara dalam rekaman audio.
Pengenalan emosi ucapan:
Proses mengidentifikasi dan memberi label pada emosi yang diungkapkan melalui ucapan, seperti kebahagiaan, kesedihan, atau kemarahan.
Deteksi peristiwa akustik:
Proses mengidentifikasi dan memberi label pada suara atau peristiwa tertentu dalam rekaman audio, seperti suara klakson mobil atau suara orang berbicara.
Ini hanyalah beberapa contoh jenis anotasi ucapan atau audio yang dapat dilakukan. Jenis anotasi spesifik yang digunakan akan bergantung pada kebutuhan dan tujuan pemrosesan bahasa alami atau sistem pengenalan suara yang sedang dikembangkan. Anotasi ucapan bisa menjadi proses yang memakan waktu dan tenaga, namun ini merupakan langkah penting dalam pengembangan banyak sistem pemrosesan bahasa alami dan pengenalan ucapan.
Cara Membuat Anotasi pada Data Ucapan
Untuk melakukan anotasi audio, organisasi dapat menggunakan perangkat lunak yang saat ini tersedia di pasar. Ada alat anotasi gratis dan sumber terbuka yang dapat disesuaikan untuk kebutuhan bisnis Anda. Alternatifnya, Anda dapat memilih alat anotasi berbayar yang memiliki beragam fitur untuk mendukung berbagai jenis anotasi. Alat anotasi berbayar tersebut umumnya didukung oleh tim profesional, yang dapat mengonfigurasi alat tersebut untuk tujuan Anda. Pilihan lainnya adalah mengembangkan alat anotasi khusus Anda sendiri dalam organisasi Anda. Namun, hal ini bisa memakan waktu lama dan mahal serta mengharuskan Anda memiliki tim ahli anotasi internal.
Perusahaan yang tidak ingin menghabiskan sumber dayanya untuk anotasi internal, dapat memilih untuk melakukan outsourcing pekerjaan mereka ke penyedia layanan eksternal yang berspesialisasi dalam anotasi. Pengalihdayaan mungkin merupakan pilihan terbaik untuk organisasi Anda, karena penyedia layanan:
- memiliki tim ahli data yang ahli dalam tugas pembersihan dan persiapan data yang memakan waktu lama dan diperlukan sebelumnya anotasi data
- sering kali dapat segera mulai menjalankan jenis pelabelan yang dibutuhkan bisnis Anda
- memberikan data berkualitas tinggi untuk model dan persyaratan pembelajaran mesin Anda
- mempercepat penskalaan (dan ROI) inisiatif anotasi intensif sumber daya Anda
Gunakan Kasus Pengenalan Ucapan
Pengenalan ucapan adalah teknologi yang memungkinkan komputer memahami dan menafsirkan ucapan manusia. Ini memiliki berbagai macam aplikasi, termasuk:
Asisten suara:
Pengenalan ucapan digunakan di asisten suara, seperti Siri dari Apple dan Alexa dari Amazon, untuk memungkinkan pengguna berinteraksi dengan perangkat mereka menggunakan perintah suara.
Perangkat lunak dikte:
Pengenalan ucapan dapat digunakan untuk mentranskripsikan kata-kata yang diucapkan menjadi teks tertulis, sehingga memudahkan orang untuk membuat dokumen dan email.
Pelayanan pelanggan:
Pengenalan ucapan digunakan di pusat layanan pelanggan untuk memungkinkan pelanggan berinteraksi dengan sistem otomatis menggunakan perintah suara.
Pendidikan:
Pengenalan ucapan dapat digunakan untuk memberikan umpan balik kepada siswa mengenai pengucapan dan keterampilan berbicara mereka.
Kesehatan:
Pengenalan ucapan digunakan di lingkungan layanan kesehatan untuk menyalin catatan dokter dan memungkinkan pasien berinteraksi dengan catatan kesehatan elektronik mereka menggunakan perintah suara.
Angkutan:
Pengenalan ucapan digunakan pada mobil self-driving untuk memungkinkan penumpang memberikan perintah suara ke kendaraan.
Otomatisasi rumah:
Pengenalan ucapan digunakan dalam sistem rumah pintar untuk memungkinkan pengguna mengontrol peralatan dan perangkat mereka menggunakan perintah suara.
Ini hanyalah beberapa contoh dari banyaknya penerapan teknologi pengenalan suara. Teknologi ini mempunyai potensi untuk merevolusi cara kita berinteraksi dengan komputer dan perangkat lain, menjadikannya lebih mudah dan nyaman bagi orang-orang untuk berkomunikasi dengannya.
Kesimpulan
Dengan semakin populernya pemrosesan bahasa alami (NLP) di seluruh perusahaan bisnis, kebutuhan akan layanan anotasi audio berkualitas tinggi mulai disadari oleh organisasi yang ingin membangun model data pembelajaran mesin yang efisien. Daripada mengembangkan keahlian internal, perusahaan mendapati bahwa mereka akan lebih terlayani dengan melakukan outsourcing pekerjaan anotasi mereka kepada pakar pihak ketiga yang berkualifikasi. TagX memiliki pengalaman luas dalam menyediakan berbagai layanan anotasi, pembersihan, dan pengayaan data kepada klien globalnya. Ingin tahu bagaimana pelabelan data dapat menguntungkan bisnis Anda? Silakan hubungi kami kapan saja.
Jika Anda menemukan kesalahan dalam teks, silakan kirim pesan kepada penulis dengan memilih kesalahan tersebut dan menekan Ctrl-Enter.