arsya's blog: Browsing Audio Data & Speech Recognation

Browsing merupakan aktivitas menjelajahi dunia maya (Internet) untuk mencari informasi yang terkini tanpa batas dan tanpa birokrasi atau dikenal juga dengan istilah surfing internet (berselancar di dunia maya), software yang digunakan dikenal dengan nama web browser. Beberapa contoh web browser adalah Mozilla Firefox, Internet aexplorer, Opera, Chrome, dll.

Dalam beberapa tahun terakhir, perkembangan Internet telah didefinisikan kembali berbagai bidang hiburan, khususnya, yaitu musik. Hari ini, real-time Internet Real audio streaming musik dan MP3 secara teratur dinikmati oleh jutaan pendengar. Makalah ini menyajikan multimedia yang berpusat manusia audio (audio informasi) sistem pencarian melalui jaringan komputer.

Karya ini juga telah diurus memainkan audio yang terus-menerus tanpa ada data yang mengganggu dengan menerapkan mekanisme streaming dan buffering. Arsitektur sistem client-server berikut model. Database digunakan untuk menyimpan informasi metadata audio. Server audio yang bertanggung jawab untuk mengambil informasi dari database untuk memenuhi permintaan klien. Klien menyediakan antarmuka komputer manusia untuk pengguna melalui antarmuka pengguna grafis untuk browsing, mencari dan memainkan audio yang menarik melalui jaringan. Berdasarkan masukan klien permintaan pengguna ke server untuk mendapatkan informasi audio (seperti daftar film-film bahasa tertentu, daftar lagu-lagu film tertentu dan daftar lagu berdasarkan pencocokan pengguna memasukkan teks lirik). Audio pengambilan informasi dari basis data akan dilakukan oleh server berbasis teks menggunakan metode pencarian.

Browsing Audio Data merupakan metode browsing jaringan yang digunakan untuk browsing video / audio data yang ditangkap oleh sebuah IP kamera. Sebuah komputer lokal digabungkan ke LAN (local area network) untuk mendeteksi IP kamera. Jaringan video / audio metode browsing mencakupi langkah-langkah sebagai berikut :

@ Menjalankan sebuah program aplikasi komputer lokal untuk mendapatkan kode identifikasi yang disimpan dalam kamera IP.

@ Transmisi untuk mendaftarkan kode identifikasi ke DDNS ( Dynamic Domain Name Server) oleh program aplikasi.

@ Mendapatkan kamera IP pribadi alamat dan alamat server pribadi sehingga pasangan IP kamera dan kontrol kamera IP melalui kamera IP pribadi alamat dan alamat server pribadi compile ke layanan server melalui alamat server pribadi sehingga untuk mendapatkan video / audio data yang ditangkap oleh kamera IP, dimana server layanan menangkap video / audio data melalui Internet.

Browsing audio data tidak semudah browsing dokumen cetak, karena adanya sifat temporal suara. Ketika melakukan browsing terhadap dokumen, kita dapat dengan cepat mengalihkan fokus perhatian dengan membaca sepintas isi dari dokumen tersebut. Kita dapat mengetahui ukuran dan struktur dokumen, dan menggunakan memori spasial visual untuk mengingat dan mencari spesifik topik. Namun, ketika browsing suatu rekaman audio, kita harus berulang kali memainkan dan melompati bagian tertentu, tanpa memainkannya, kita tidak bisa menyadari suara atau isinya. Kita harus mendengarkan semua stream audio untuk dapat menangkap semua isinya.

Beberapa bentuk informasi yang dapat dicari (browsed) melalui internet, yaitu: informasi berupa teks (text/plain, text/html), image (image/gif, image/jpeg, image/png), video (video/mpeg, video/quicktime), audio (audio/basic, audio/wav) dan application (application/msword, application/octet-stream).

1. Pengenalan Speech Recognation

Speech recognation (ASR) adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat.

Pengenalan ucapan (speech recognation) dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi du kategori, yaitu:

Piranti pengenalan kata (word recognation) yang mampu merespon ucapan-ucapan secara indovidu atau perintah-perintah yang menggunakan teknik yang dikenal sebagai speaker verification. Pertama kali sistem akan membangkitkan suatu template untuk mengenali suara user.
Piranti pengenalan kalimat (speech recognation) yang mampu mengenali hubungan antar kata terucap di dalam kalimat atau frase. Teknik - teknik statistik dipakai dalam hal pola perekaman suara yang akan dicocokkan dengan kata-kata terucap.

2. Jenis-Jenis Pengenalan Ucapan

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu :

♣ Kata-kata yang terisolasi : Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata

♣ Kata-kata yang berhubungan : Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat

♣ Kata-kata yang berkelanjutan : Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural

♣ Kata-kata spontan: Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata

♣ Verifikasi atau identifikasi suara: Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara

3. Prinsip Dasar Speech Recognation

Semua metode dasar proses pengenalan suara terdiri dari dua fase operasi, yaitu:

Proses training. Pada proses ini sistem belajar dari referensi pola yang berupa perbedaan pola sinyal suara misal frase, kata, fonem yang akan mengisi vocabulari dari sistem. Setiap referensi di pelajari dari kata yang dikatakan yang kemudian disimpan dalam template dan telah mengalami metode untuk merata-rata dan karakteristik statistik dan parameter statistik.
Proses recognation. Pada proses ini sistem akan diberikan inputan yang belum diketahui dan akan di identifikasi berdasarkan pola template yang telah didapatkan pada proses training.

Pada umumnya, suatu sistem pengenalan suara terdiri dari beberapa modul utama, yaitu:

@ Signal processign frontend digunakan untuk mengkonversi sinyal suara kedalam bentuk sequence feature vector yang akan digunakan pada saat klasifikasi.

@ Accoustic modelling digunakan untuk memodelkan secara statistik hasil training yang telah dilakukan kedalam sebuah template.

@ Language modelling digunakan untuk memodelkan bentuk kata baik berupa kata, fonem, ataupun kalimat.

Gambar1. Blok Diagram Speech Recognation

4. Alat Pengenal Suara (Speech Recognizer)

Alat pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih tergantung kepada pengeras suara. Alat ini hanya dapat mengenal kata yang diucapkan dari satu atau dua orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung pada pengeras suara. Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam penyampaiannya tidak terdapat jeda antar kata.

Aplikasi dari alat pengenal suara dapata ditemukan dalam berbagai bidang, diantaranya adalah:

@ Bidang komunikasi

Komando Suara

Komando Suara adalah suatu program pada komputer yang melakukan perintah berdasarkan komando suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa Inggris. Ketika pengguna mengatakan “Mulai kalkulator” dengan intonasi dan tata bahasa yang sesuai, komputer akan segera membuka aplikasi kalkulator. Jika komando suara yang diberikan sesuai dengan daftar perintah yang tersedia, aplikasi akan memastikan komando suara dengan menampilkan tulisan “Apakah Anda meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan verifikasi, pengguna cukup mengatakan “Lakukan” dan komputer akan langsung beroperasi.

Pendiktean

Pendiktean adalah sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.

Telepon

Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara.

@ Bidang kesehatan

Alat pengenal ucapan banyak digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User Interface (VUI) yang menggunakan teknologi pengenal ucapan dimana pengendalian saklar lampu misalnya, tidak perlu dilakukan secara manual dengan menggerakkan saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk ucapan sebagai saklarnya. Metode ini membantu manusia yang secara fisik tidak dapat menggerakkan saklar karena cacat pada tangan misalnya. Penerapan VUI ini tidak hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi kontrol yang lain.

Gambar 2 Voice User Interface (VUI)

@ Bidang militer

Pelatihan Penerbangan

Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalu-lintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada pilot dengan cara berdialog.

Helikopter

Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada helikopter karena ketika terbang, sangat banyak gangguan yang akan menyulitkan pilot bila harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet tombol tertentu.

5. Kekurangan dan Kelebihan Alat Pengenal Suara (Speech Recognizer)

Kelebihan dari peralatan yang menggunakan teknologi ini adalah:

Cepat. Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi tersebut. Contohnya pada komando suara. Hanya dalam selang waktu sekitar satu atau dua detik setelah kita mengkomandokan perintah melalui suara, komputer sudah memberi umpan balik atas komando kita.
Mudah digunakan. Kemudahan teknologi ini juga dapat dilihat dalam aplikasi komando suara. Komando yang biasanya kita masukkan ke dalam komputer dengan menggunakan tetikus atau papan ketik kini dapat dengan mudahnya kita lakukan tanpa perangkat keras, yakni dengan komando suara.

Sedangkan kekurangan dari peralatan menggunakan teknologi ini adalah:

Rawan terhadap ganguan. Hal ini disebabkan oleh proses sinyal suara yang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang sama banyaknya dengan komponen frekuensi gangguannya, akan sulit untuk memisahkan gangguan dari sinyal suara
Jumlah kata yang dapat dikenal terbatas. Hal ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.

Sumber:

http://en.wikipedia.org/wiki/Speech_recognition

http://student.eepis-its.edu/syafur/IES/Syafur/bukuta/hmmbuku1.doc

http://pjj-vedca.depdiknas.go.id/literasi/modul/Browsing_Internet.pdf

arsya's blog

Jumat, 19 Oktober 2012

Browsing Audio Data & Speech Recognation

Tidak ada komentar:

Posting Komentar