Bu site emekli olmuştur. Arşiv amaçlı olarak BT AKADEMİ sponsorluğunda yayın hayatına devam etmektedir.




C#nedir?com
 
YAZAR HAKKINDA
Gökçen Yıldırım
Gökçen Yıldırım
http://www.csharpnedir.com/
İletişme geçmek için tıklayın.
1 Makalesi yayınlanmakta.
Yazar hakkında detaylı bilgi için tıklayın.
Yayınlanan diğer makaleleri için tıklayın.
İlgili etiketler:  C / Sys Prog. Gökçen Yıldırım
 
YAZI HAKKINDA
Türü : Makale
Serbest Köşede C#nedir?com üyelerinin hazırladıkları yazılar yayınlanır. Bu yazılar editör incelemesine girmeden yayınlanır.
Seviyesi : Orta
Kategori : C / Sys Prog.
Yayınlanma Tarihi : 25.10.2003
Okunma Sayısı : 41609
Yorum Sayısı : 0     yorum yaz
Site İçi AramaSİTE İÇİ ARAMA
Üye Girişini AçÜye GİRİŞİ
Üye girişi için tıklayın.
Kullanıcı Adı
Şifre
 
Beni her zaman hatırla
Bir hafta boyunca kullanıcı bilgilerinizi kullanıcı çıkışı yapana kadar hatırlar. (Paylaşılan bilgisayarlarda önerilmez.)
 
Şifremi / Kullanıcı Adımı unuttum.
 
.net TV RSS Serbest KÖŞE (?)
Serbest Köşede C#nedir?com üyelerinin hazırladıkları yazılar yayınlanır. Bu yazılar editör incelemesine girmeden yayınlanır.
emre TAŞ
Silindi
emre TAŞ
yazının devamı >
emre TAŞ
silindi
emre TAŞ
yazının devamı >
emre TAŞ
silindi
emre TAŞ
yazının devamı >
emre TAŞ
silindi
emre TAŞ
yazının devamı >
emre TAŞ
silindi
emre TAŞ
yazının devamı >
Makale Gönder Bende Yazmak İstiyorum
.net TV RSSBlogroll
Burak Selim Şenyurt
Kurumsal Yazılımcının Oyun Geliştirme ile İmtihanı 28.3.2024
Burak Selim Şenyurt
Matematik ve Oyun Programlama - Missile Command - Final 28.3.2024
Turhal Temizer
Conda install environment.yml Package 28.3.2024
Turhal Temizer
Mac OS/X Removing CUDA 28.3.2024
  Diğer Herşey
Sponsorlar
BT Akademi
Medya Portakal
Video Hosting Sponsoru
Csharpnedir.com bir Ineta üyesidir
Uzman Abi
Her Yönüyle C# - Sefer Algan
Ses Tanıma(Speeach Recognition) ve OSR
 
Kapat
Sayfayı Yazdır Sık Kullanılanlara Ekle Arkadaşıma Gönder MySpace Del.Ico.Us Digg Facebook Google Mixx Reddit StumbleUpon
Ses tanıması; konuşmacı tarafından söylenen sözleri tanımlamak için işitsel sinyallerin analizi işlemidir. Basit gibi görünmesine rağmen bu işlem, yazılım geliştiricilerinin karşılaştıkları en karmaşık problemlerden biridir. Sadece son yıllarda, güç ve hafıza kapasitelerindeki ilerlemelerin yardımıyla, yüksek kapasitedeki ses tanıma sistemleri ticari açıdan uygulanabilir gözükmektedir. Ses tanıma sisteminin genel işleyişi iyi bilinmesine rağmen, “Open Speech Recognizer”’ın çok iyi çalışmasına sebep olan birçok detay burada bahsedilemeyecek ticari sırdır.

Ses tanıması, insanlar bu konuda çok usta oldukları için çok kolay gözükebilir. Düşük seviyedeki insan işitme mekanizması bilim adamları tarafından iyi bilinmesine rağmen, konuşma ile ilgili yüksek seviyedeki beyin fonksiyonları hala bilinmeyen olarak kalmaktadır. Konuşmanın bilgisayar tarafından tanınması için gerekli olan algoritmalar, otomatik ses tanıması (ASR) olarak genellikle belirtilendir. ASR biraz biyolojik bir prosese benzer.

Gramer Açısından Tanıma

Bazen insanlar benzer sözleri birbirine karıştırırlar ( Örnek olarak, kiss this guy cümlesini kiss the sky anlamak gibi ). Genellikle şarkı sözlerinde bu benzerlikler kullanılır. Benzer şekilde, ses tanımlama sisteminde de konuşulan kelime tek algılanmaya çalışılmaz. İhtimale göre sıralanmış benzer ifadeler içinde, bir en iyi listesi yapılmaya çalışılır. Bunu sağlamak için , her segmente en iyi şeklide uyan tek ses birim modeli seçmek yerine, bütün ses birim modelleri puanlanır ve her segment için sıraya dizilir. Herhangi bir segment ile herhangi bir ses birimi uyuşabilir fakat bazı kombinasyonlar diğerlerinden daha çok uyumlu şekildedir.

Ses tanımlaması işleminde, ses tanımlayıcı kalabalık bir ‘segmentler (her biri ses birimi etiketlerinin sıralanmış listesi halindedir) ağına’ sahiptir.Çünkü konuştuğumuz benzer ifadeleri ayırt etmek gibi zor bir görevi vardır.

Segment ağı tarafından temsil edilen muhtemel ifadelerin çoğu uygulama için anlamsızdır. Kullanılabilir ifadelerin araştırmasının sınırlandırılması için gramer’e başvurulur. Okuldaki gramerin tersine,ses tanımlamasındaki gramer dildeki bütün ifadeleri temsil etmez. Gerçekte konuşma uygulamasındaki her vurgu , birleştirilmiş ses tanımlamasını kısıtlayan tek bir gramer için referans olabilir.

Gramerler dildeki belli sözcüklerin yapısına göre oluşturulan kurallar kümesidir. Programlama sistemlerinde gramerler her bir kelime öbeğine bir ağırlık değeri verilerek belirlenir, örneğin “yeah,sure,yes” gibi sözcüklerin aynı anlamda kullanıldığını belirtmek için her bir sözcüğe aynı ağırlık değeri verilir.

Gramerdeki sözler ses tanımlama işleminde kullanıldığı gibi ses birimlerine çevrilmelidir. Öncelikle her kelime , benzer ses birimlerinde olan telaffuz sözlüğünden bakılmalıdır. Genel telaffuz sözlükleri ender uygulamalarda kullanılan telaffuzların kontrolü için kullanılabilir. Eğer kelime sözlükte bulunmuyorsa , telaffuz kurallarına göre bir insanın da muhtemelen yapacağı gibi cevap yorumlanarak yapılır. Konuşma işleminin sonucu,gramer tarafından izin verilen ifadelerin temsili için, ses birim dizgelerinin(string) oluşturduğu ağdır.

Ses tanımlama işlemindeki son adım , ses birimi etiketlerinde ses birim dizgelerine kadar gramer tarafından izin verilen, akustik segmentlerin ağını seçmektir. Ses tanımlama sanatı bu karışık araştırmaya etkin bir şekilde yönetmek için gerekli olan bazı tekniklere sahiptir. Böylece ses tanımlama sonuçları algılanabilir bir gecikme olmadan geri dönmektedir.

Performans

ScanSoft’a ait Open Speech Recognizer (OSR), yüksek kapasiteli uygulamaların maliyet etkili konumlandırılması için oldukça etkili işlemi sağlamak için dizayn edildi.

OSR , etkinliği sağlamak için çoklu teknikleri (daha önce bahsedilen explicit segmentation yaklaşımı da dahil) birleştirir. O ayrıca gereksiz segmentleri paylaşarak gramerleri temsil eden patentli Finite State Transducer (FST) teknolojisini de içerir. Gereksizleri uzaklaştırmak, tanımlama sonucunu saptamak için işlenmesi gereken ses birimi sayısını azaltarak hafızaya ve hesaplamaya tasarruf yaptırır.  Ayrıca gramerlerin derlenmesinde ve beş kata kadar daha hızlı yüklenmesinde rol oynamaktadır.Tasarruflar dramatiktir; 40000 kelimelik grameri 170 MB hafıza kullanmaktadır ki FST teknolojisi ile sadece 15 MB’a indirilmiştir.

Her ses tanımlayıcı  daha fazla hesaplama kaynaklarının uygulanmasıyla yüksek oranda doğruluk ulaştırabilir. OSR böyle değişikliklere etkili dizaynından dolayı tanımlayıcılarla yarışmaktan daha az duyarlıdır. Yine de mevcut hesaplama kaynaklarını en iyi avantajla kullanan load-sensitive algoritmalarla işbirliği halindedir. Aslında ScanSoft böyle bir tekniği geliştiren ilk şirket olma özelliğine sahiptir.

OSR , ses tanımlama işlemlerini bütün kanallarda paylaşılabilmesi için gramerin bir kopyasını otomatik olarak bellekte depolar. Bu, geniş ölçekli yayılmalar (aynı uygulamanın düzinelerce kanalda çalıştığı ) için hafızada önemli bir azalma sağlar

 

SALT için optimizasyonlar

OSR aşağıda bahsedilen özelliklere sahip ses uygulamalarının konumlandırılması için özellikle dizayn edildi;

*Gramer Tanımlama: OSR’de SALT için gereken Speech Recognition Gramer Spesification (SGRS) dosya formatı için bir özel destek vardır. Scan Soft’un eski ses tanımlama ürünlerinde kullanılan Augmented Backus-Naur Format (ABNF) ‘da yazılan gramerlerin SGRS’ye dönüşümünde kullanılan bir araçtır.

*Gramer Yükleme: OSR; SALT için gerekli olan Universal Resource Identifier kullanan gramerlere başvurur. OSR, eğer gramer uzak(remote) bir sistemde ise ona ulaşacaktır. Gramerler daha fazla etkinlik için 2 seviyeli bir bellekte ve disk cache’de depolanacaklardır.

*Dinamik Gramerler: OSR gramerleri gerekli olduğunda hemen derler. OSR gramer düzenleyicisi birkaç bin kelimeyi gecikmesiz işleyebilecek kadar çok hızlıdır. Daha büyük gramerler önderleme formuna sokulabilir.OSR eğer istenirse merkezileştirilmiş gramer derleme sistemi kullanılarak biçimlendirilebilir.

*Paralel Gramerler: OSR çoklu gramerlerin, onları birleştirmek için ‘wrapper gramer’ kullanımına gerek kalmadan, paralel olarak depolanmasına imkan sağlar. Bu  tek birleştirilmiş gramerin derlemesini yok ederek verimliliği arttırır .OSR  derlenmiş ve kaynak gramerlerin karıştırılmasına izin verir.

*ECMAScript Desteği: OSR; tanımlama işlemi süresince olan uygulama –özel işlemine izin vererek SALT için gereken gramerlerde gömülmüş ECMAScriptlere destek verir. ECMAScript standart ve genel amaçlı script dilidir. Scripting genelde dönüş değerlerini hesaplamak için kullanılır fakat ayrıca illegal gramer yollarını engellemek için de kullanılabilir.

*DTMF Gramerleri: OSR’de SALT için gerektiği gibi DTMF gramerleri işlem görecektir.OSR iştsel sinyallerin şifresini tek başına çözmez ayrıca tanımlanmış bir DTMF’ye de ihtiyacı vardır.

*Built-in Gramerler: OSR, ortak görevleri (boolen,para birimi,tarih,basamaklar,numara,telefon numarası ve zaman) yapmak için SALT tarafından gereken yedi tane built-in gramere sahiptir.

*Sonuç Formatı: OSR sonuçları ,semantic tercümanlık için SALT tarafından önerilen Naturel Language Semantic Markup Language (NLSML) formatına çevirir.


Gramer araçları

Open speech recognizer , ses tanımlama gramerinin gelişimi ve devamında yardım için bir kaç aracı kapsar; 

*Ayıklama(Parse) Aracı: OSR’de, özel ifadelerin çevrilmesi kontrol edilerek; gramerin test edilmesi için bir komut satırı aracı vardır. 

*Gramer Derleyici (Compiler): OSR’de gramerin offline derlenmesi için kullanılan bir araç vardır. Gramerin gerektiği anda hemen OSR tarafından derlenmesine rağmen,çok geniş gramerler runtime sistem kaynaklarını korumak için önderleme işlemine sokulur. 

*Gramer Editörü:  OSR’de ; gramer sentaks yanlışlarını belirten ve diğer gramer araçlarına bir giriş sağlayan , ifadelerin dönüşümü için grameri test eden ve gramerleri ikili(binary) form da derleyen tekst tabanlı bir editördür. 

*Gramer Dönüştürücü (Converter): OSR’de farklı gramer formatlarını (ABNF,Scansoft 6.x format,GSL) OSR tarafından kabul edilen SRGS formatına dönüştürmeyi sağlayan bir araç vardır. 

OSR ve Ses tanıma teknikleri hakkında daha fazla bilgi için http://www.scansoft.com/network adresini ziyaret edebilirsiniz.

 

Not : Bu yazı ScanSoft.com sitesinde yayınlanmış bir makaleden çevrilmiştir.

Makale:
Ses Tanıma(Speeach Recognition) ve OSR C ve Sistem Programlama Gökçen Yıldırım
  • Yazılan Yorumlar
  • Yorum Yaz
Bu konu hakkında yayınlanan yorum bulunmamaktadır.
"Yorum Yaz" tabını kullanarak sizde yorumlarınızı yazabilirsiniz.
Yorum yazabilmek için üye girişi yapmalısınız. Üye girişi için tıklayın.
Üye değilseniz Üyel Ol linkine tıklayarak üyeliğinizi hemen başlatabilirisniz.
 
  • Bu Konuda Son 10
  • Eklenen Son 10
  • Bu Konuda Geçmiş 10
Bu Konuda Yazılmış Yazılmış 10 Makale Yükleniyor
Son Eklenen 10 Makale Yükleniyor
Bu Konuda Yazılmış Geçmiş Makaleler Yükleniyor