|
Ses Tanıma(Speeach Recognition) ve OSR |
|
Gönderiliyor lütfen bekleyin... |
|
|
Ses tanıması;
konuşmacı tarafından söylenen sözleri tanımlamak için işitsel sinyallerin
analizi işlemidir. Basit gibi görünmesine rağmen bu işlem, yazılım geliştiricilerinin
karşılaştıkları en karmaşık problemlerden biridir. Sadece son yıllarda, güç
ve hafıza kapasitelerindeki ilerlemelerin yardımıyla, yüksek kapasitedeki
ses tanıma sistemleri ticari açıdan uygulanabilir gözükmektedir. Ses tanıma
sisteminin genel işleyişi iyi bilinmesine rağmen, “Open Speech Recognizer”’ın
çok iyi çalışmasına sebep olan birçok detay burada bahsedilemeyecek ticari
sırdır.
Ses tanıması,
insanlar bu konuda çok usta oldukları için çok kolay gözükebilir. Düşük seviyedeki
insan işitme mekanizması bilim adamları tarafından iyi bilinmesine rağmen,
konuşma ile ilgili yüksek seviyedeki beyin fonksiyonları hala bilinmeyen olarak
kalmaktadır. Konuşmanın bilgisayar tarafından tanınması için gerekli olan
algoritmalar, otomatik ses tanıması (ASR) olarak genellikle belirtilendir.
ASR biraz biyolojik bir prosese benzer.
Gramer
Açısından Tanıma
Bazen insanlar
benzer sözleri birbirine karıştırırlar ( Örnek olarak, kiss this guy cümlesini
kiss the sky anlamak gibi ). Genellikle şarkı sözlerinde bu benzerlikler kullanılır.
Benzer şekilde, ses tanımlama sisteminde de konuşulan kelime tek algılanmaya
çalışılmaz. İhtimale göre sıralanmış benzer ifadeler içinde, bir en iyi listesi
yapılmaya çalışılır. Bunu sağlamak için , her segmente en iyi şeklide uyan
tek ses birim modeli seçmek yerine, bütün ses birim modelleri puanlanır ve
her segment için sıraya dizilir. Herhangi bir segment ile herhangi bir ses
birimi uyuşabilir fakat bazı kombinasyonlar diğerlerinden daha çok uyumlu
şekildedir.
Ses tanımlaması
işleminde, ses tanımlayıcı kalabalık bir ‘segmentler (her biri ses birimi
etiketlerinin sıralanmış listesi halindedir) ağına’ sahiptir.Çünkü konuştuğumuz
benzer ifadeleri ayırt etmek gibi zor bir görevi vardır.
Segment ağı
tarafından temsil edilen muhtemel ifadelerin çoğu uygulama için anlamsızdır.
Kullanılabilir ifadelerin araştırmasının sınırlandırılması için gramer’e başvurulur.
Okuldaki gramerin tersine,ses tanımlamasındaki gramer dildeki bütün ifadeleri
temsil etmez. Gerçekte konuşma uygulamasındaki her vurgu , birleştirilmiş
ses tanımlamasını kısıtlayan tek bir gramer için referans olabilir.
Gramerler dildeki
belli sözcüklerin yapısına göre oluşturulan kurallar kümesidir. Programlama
sistemlerinde gramerler her bir kelime öbeğine bir ağırlık değeri verilerek
belirlenir, örneğin “yeah,sure,yes” gibi sözcüklerin aynı anlamda kullanıldığını
belirtmek için her bir sözcüğe aynı ağırlık değeri verilir.
Gramerdeki sözler
ses tanımlama işleminde kullanıldığı gibi ses birimlerine çevrilmelidir. Öncelikle
her kelime , benzer ses birimlerinde olan telaffuz sözlüğünden bakılmalıdır.
Genel telaffuz sözlükleri ender uygulamalarda kullanılan telaffuzların kontrolü
için kullanılabilir. Eğer kelime sözlükte bulunmuyorsa , telaffuz kurallarına
göre bir insanın da muhtemelen yapacağı gibi cevap yorumlanarak yapılır. Konuşma
işleminin sonucu,gramer tarafından izin verilen ifadelerin temsili için, ses
birim dizgelerinin(string) oluşturduğu ağdır.
Ses tanımlama
işlemindeki son adım , ses birimi etiketlerinde ses birim dizgelerine kadar
gramer tarafından izin verilen, akustik segmentlerin ağını seçmektir. Ses
tanımlama sanatı bu karışık araştırmaya etkin bir şekilde yönetmek için gerekli
olan bazı tekniklere sahiptir. Böylece ses tanımlama sonuçları algılanabilir
bir gecikme olmadan geri dönmektedir.
Performans
ScanSoft’a ait
Open Speech Recognizer (OSR), yüksek kapasiteli uygulamaların maliyet etkili
konumlandırılması için oldukça etkili işlemi sağlamak için dizayn edildi.
OSR , etkinliği
sağlamak için çoklu teknikleri (daha önce bahsedilen explicit segmentation
yaklaşımı da dahil) birleştirir. O ayrıca gereksiz segmentleri paylaşarak
gramerleri temsil eden patentli Finite State Transducer (FST) teknolojisini
de içerir. Gereksizleri uzaklaştırmak, tanımlama sonucunu saptamak için işlenmesi
gereken ses birimi sayısını azaltarak hafızaya ve hesaplamaya tasarruf yaptırır.
Ayrıca gramerlerin derlenmesinde ve beş kata kadar daha hızlı yüklenmesinde
rol oynamaktadır.Tasarruflar dramatiktir; 40000 kelimelik grameri 170 MB hafıza
kullanmaktadır ki FST teknolojisi ile sadece 15 MB’a indirilmiştir.
Her ses tanımlayıcı
daha fazla hesaplama kaynaklarının uygulanmasıyla yüksek oranda doğruluk ulaştırabilir.
OSR böyle değişikliklere etkili dizaynından dolayı tanımlayıcılarla yarışmaktan
daha az duyarlıdır. Yine de mevcut hesaplama kaynaklarını en iyi avantajla
kullanan load-sensitive algoritmalarla işbirliği halindedir. Aslında ScanSoft
böyle bir tekniği geliştiren ilk şirket olma özelliğine sahiptir.
OSR
, ses tanımlama işlemlerini bütün kanallarda paylaşılabilmesi
için gramerin bir kopyasını otomatik olarak bellekte depolar. Bu,
geniş ölçekli yayılmalar (aynı uygulamanın düzinelerce
kanalda çalıştığı ) için hafızada önemli bir
azalma sağlar
SALT
için optimizasyonlar
OSR aşağıda
bahsedilen özelliklere sahip ses uygulamalarının konumlandırılması için özellikle
dizayn edildi;
*Gramer Tanımlama:
OSR’de SALT için gereken Speech Recognition Gramer Spesification (SGRS) dosya
formatı için bir özel destek vardır. Scan Soft’un eski ses tanımlama ürünlerinde
kullanılan Augmented Backus-Naur Format (ABNF) ‘da yazılan gramerlerin SGRS’ye
dönüşümünde kullanılan bir araçtır.
*Gramer Yükleme:
OSR; SALT için gerekli olan Universal Resource Identifier kullanan gramerlere
başvurur. OSR, eğer gramer uzak(remote) bir sistemde ise ona ulaşacaktır.
Gramerler daha fazla etkinlik için 2 seviyeli bir bellekte ve disk cache’de
depolanacaklardır.
*Dinamik
Gramerler: OSR gramerleri gerekli olduğunda hemen derler. OSR gramer düzenleyicisi
birkaç bin kelimeyi gecikmesiz işleyebilecek kadar çok hızlıdır. Daha büyük
gramerler önderleme formuna sokulabilir.OSR eğer istenirse merkezileştirilmiş
gramer derleme sistemi kullanılarak biçimlendirilebilir.
*Paralel
Gramerler: OSR çoklu gramerlerin, onları birleştirmek için ‘wrapper gramer’
kullanımına gerek kalmadan, paralel olarak depolanmasına imkan sağlar. Bu
tek birleştirilmiş gramerin derlemesini yok ederek verimliliği arttırır .OSR
derlenmiş ve kaynak gramerlerin karıştırılmasına izin verir.
*ECMAScript
Desteği: OSR; tanımlama işlemi süresince olan uygulama –özel işlemine
izin vererek SALT için gereken gramerlerde gömülmüş ECMAScriptlere destek
verir. ECMAScript standart ve genel amaçlı script dilidir. Scripting genelde
dönüş değerlerini hesaplamak için kullanılır fakat ayrıca illegal gramer yollarını
engellemek için de kullanılabilir.
*DTMF Gramerleri:
OSR’de SALT için gerektiği gibi DTMF gramerleri işlem görecektir.OSR iştsel
sinyallerin şifresini tek başına çözmez ayrıca tanımlanmış bir DTMF’ye de
ihtiyacı vardır.
*Built-in
Gramerler: OSR, ortak görevleri (boolen,para birimi,tarih,basamaklar,numara,telefon
numarası ve zaman) yapmak için SALT tarafından gereken yedi tane built-in
gramere sahiptir.
*Sonuç Formatı:
OSR sonuçları ,semantic tercümanlık için SALT tarafından önerilen Naturel
Language Semantic Markup Language (NLSML) formatına çevirir.
Gramer
araçları
Open speech
recognizer , ses tanımlama gramerinin gelişimi ve devamında yardım için bir
kaç aracı kapsar;
*Ayıklama(Parse)
Aracı: OSR’de, özel ifadelerin çevrilmesi kontrol edilerek; gramerin test
edilmesi için bir komut satırı aracı vardır.
*Gramer Derleyici
(Compiler): OSR’de gramerin offline derlenmesi için kullanılan bir araç
vardır. Gramerin gerektiği anda hemen OSR tarafından derlenmesine rağmen,çok
geniş gramerler runtime sistem kaynaklarını korumak için önderleme işlemine
sokulur.
*Gramer Editörü:
OSR’de ; gramer sentaks yanlışlarını belirten ve diğer gramer araçlarına bir
giriş sağlayan , ifadelerin dönüşümü için grameri test eden ve gramerleri
ikili(binary) form da derleyen tekst tabanlı bir editördür.
*Gramer Dönüştürücü
(Converter): OSR’de farklı gramer formatlarını (ABNF,Scansoft 6.x format,GSL)
OSR tarafından kabul edilen SRGS formatına dönüştürmeyi sağlayan bir araç
vardır.
OSR
ve Ses tanıma teknikleri hakkında daha fazla bilgi için http://www.scansoft.com/network adresini ziyaret edebilirsiniz.
Not : Bu
yazı ScanSoft.com sitesinde yayınlanmış bir makaleden çevrilmiştir.
Makale:
Ses Tanıma(Speeach Recognition) ve OSR C ve Sistem Programlama Gökçen Yıldırım
|
|
|
-
-
Eklenen Son 10
-
Bu Konuda Geçmiş 10
Bu Konuda Yazılmış Yazılmış 10 Makale Yükleniyor
Son Eklenen 10 Makale Yükleniyor
Bu Konuda Yazılmış Geçmiş Makaleler Yükleniyor
|
|