Ana Sayfa

.net TV

Makaleler

Kaynak Kod

Haberler

Serbest Köşe

Canlı Köşe

Forum

C#nedir?

Ekibimiz

RSS

ADO.NET/SQL	C / Sys Prog.	Genel	Mono ve .NET	Silverlight	XML / Web Serv.
X86 Assembly	C++ / C++.NET	J#.NET / Java	.NET 3.x	UML / Analiz	Yazılım Müh.
ASP.NET	C# / VC#/.NET	Mobil Prog.	PHP 5

YAZAR HAKKINDA

Gökçen Yıldırım
http://www.csharpnedir.com/
İletişme geçmek için tıklayın.
1 Makalesi yayınlanmakta.
Yazar hakkında detaylı bilgi için tıklayın.
Yayınlanan diğer makaleleri için tıklayın.
İlgili etiketler: C / Sys Prog. Gökçen Yıldırım

YAZI HAKKINDA

Türü	: Makale Serbest Köşede C#nedir?com üyelerinin hazırladıkları yazılar yayınlanır. Bu yazılar editör incelemesine girmeden yayınlanır.
Seviyesi	: Orta
Kategori	: C / Sys Prog.
Yayınlanma Tarihi	: 25.10.2003
Okunma Sayısı	: 49514
Yorum Sayısı	: 0 yorum yaz

SİTE İÇİ ARAMA

Üye GİRİŞİ

Üye girişi için tıklayın.

Kullanıcı Adı

Şifre

	Beni her zaman hatırla
	Bir hafta boyunca kullanıcı bilgilerinizi kullanıcı çıkışı yapana kadar hatırlar. (Paylaşılan bilgisayarlarda önerilmez.)

Şifremi / Kullanıcı Adımı unuttum.

C#nedir? hesabınız yok mu?
Üye olabilmek için tıklayın.

Serbest KÖŞE (?)

Serbest Köşede C#nedir?com üyelerinin hazırladıkları yazılar yayınlanır. Bu yazılar editör incelemesine girmeden yayınlanır.

Silindi
emre TAŞ
yazının devamı >

silindi
emre TAŞ
yazının devamı >

Bende Yazmak İstiyorum

Gramer Açısından Tanıma

Bazen insanlar benzer sözleri birbirine karıştırırlar ( Örnek olarak, kiss this guy cümlesini kiss the sky anlamak gibi ). Genellikle şarkı sözlerinde bu benzerlikler kullanılır. Benzer şekilde, ses tanımlama sisteminde de konuşulan kelime tek algılanmaya çalışılmaz. İhtimale göre sıralanmış benzer ifadeler içinde, bir en iyi listesi yapılmaya çalışılır. Bunu sağlamak için , her segmente en iyi şeklide uyan tek ses birim modeli seçmek yerine, bütün ses birim modelleri puanlanır ve her segment için sıraya dizilir. Herhangi bir segment ile herhangi bir ses birimi uyuşabilir fakat bazı kombinasyonlar diğerlerinden daha çok uyumlu şekildedir.

Ses tanımlaması işleminde, ses tanımlayıcı kalabalık bir ‘segmentler (her biri ses birimi etiketlerinin sıralanmış listesi halindedir) ağına’ sahiptir.Çünkü konuştuğumuz benzer ifadeleri ayırt etmek gibi zor bir görevi vardır.

Segment ağı tarafından temsil edilen muhtemel ifadelerin çoğu uygulama için anlamsızdır. Kullanılabilir ifadelerin araştırmasının sınırlandırılması için gramer’e başvurulur. Okuldaki gramerin tersine,ses tanımlamasındaki gramer dildeki bütün ifadeleri temsil etmez. Gerçekte konuşma uygulamasındaki her vurgu , birleştirilmiş ses tanımlamasını kısıtlayan tek bir gramer için referans olabilir.

Gramerler dildeki belli sözcüklerin yapısına göre oluşturulan kurallar kümesidir. Programlama sistemlerinde gramerler her bir kelime öbeğine bir ağırlık değeri verilerek belirlenir, örneğin “yeah,sure,yes” gibi sözcüklerin aynı anlamda kullanıldığını belirtmek için her bir sözcüğe aynı ağırlık değeri verilir.

Gramerdeki sözler ses tanımlama işleminde kullanıldığı gibi ses birimlerine çevrilmelidir. Öncelikle her kelime , benzer ses birimlerinde olan telaffuz sözlüğünden bakılmalıdır. Genel telaffuz sözlükleri ender uygulamalarda kullanılan telaffuzların kontrolü için kullanılabilir. Eğer kelime sözlükte bulunmuyorsa , telaffuz kurallarına göre bir insanın da muhtemelen yapacağı gibi cevap yorumlanarak yapılır. Konuşma işleminin sonucu,gramer tarafından izin verilen ifadelerin temsili için, ses birim dizgelerinin(string) oluşturduğu ağdır.

Ses tanımlama işlemindeki son adım , ses birimi etiketlerinde ses birim dizgelerine kadar gramer tarafından izin verilen, akustik segmentlerin ağını seçmektir. Ses tanımlama sanatı bu karışık araştırmaya etkin bir şekilde yönetmek için gerekli olan bazı tekniklere sahiptir. Böylece ses tanımlama sonuçları algılanabilir bir gecikme olmadan geri dönmektedir.

Performans

ScanSoft’a ait Open Speech Recognizer (OSR), yüksek kapasiteli uygulamaların maliyet etkili konumlandırılması için oldukça etkili işlemi sağlamak için dizayn edildi.

OSR , etkinliği sağlamak için çoklu teknikleri (daha önce bahsedilen explicit segmentation yaklaşımı da dahil) birleştirir. O ayrıca gereksiz segmentleri paylaşarak gramerleri temsil eden patentli Finite State Transducer (FST) teknolojisini de içerir. Gereksizleri uzaklaştırmak, tanımlama sonucunu saptamak için işlenmesi gereken ses birimi sayısını azaltarak hafızaya ve hesaplamaya tasarruf yaptırır. Ayrıca gramerlerin derlenmesinde ve beş kata kadar daha hızlı yüklenmesinde rol oynamaktadır.Tasarruflar dramatiktir; 40000 kelimelik grameri 170 MB hafıza kullanmaktadır ki FST teknolojisi ile sadece 15 MB’a indirilmiştir.

Her ses tanımlayıcı daha fazla hesaplama kaynaklarının uygulanmasıyla yüksek oranda doğruluk ulaştırabilir. OSR böyle değişikliklere etkili dizaynından dolayı tanımlayıcılarla yarışmaktan daha az duyarlıdır. Yine de mevcut hesaplama kaynaklarını en iyi avantajla kullanan load-sensitive algoritmalarla işbirliği halindedir. Aslında ScanSoft böyle bir tekniği geliştiren ilk şirket olma özelliğine sahiptir.

OSR , ses tanımlama işlemlerini bütün kanallarda paylaşılabilmesi için gramerin bir kopyasını otomatik olarak bellekte depolar. Bu, geniş ölçekli yayılmalar (aynı uygulamanın düzinelerce kanalda çalıştığı ) için hafızada önemli bir azalma sağlar

SALT için optimizasyonlar

OSR aşağıda bahsedilen özelliklere sahip ses uygulamalarının konumlandırılması için özellikle dizayn edildi;

*Gramer Tanımlama: OSR’de SALT için gereken Speech Recognition Gramer Spesification (SGRS) dosya formatı için bir özel destek vardır. Scan Soft’un eski ses tanımlama ürünlerinde kullanılan Augmented Backus-Naur Format (ABNF) ‘da yazılan gramerlerin SGRS’ye dönüşümünde kullanılan bir araçtır.

*Gramer Yükleme: OSR; SALT için gerekli olan Universal Resource Identifier kullanan gramerlere başvurur. OSR, eğer gramer uzak(remote) bir sistemde ise ona ulaşacaktır. Gramerler daha fazla etkinlik için 2 seviyeli bir bellekte ve disk cache’de depolanacaklardır.

*Dinamik Gramerler: OSR gramerleri gerekli olduğunda hemen derler. OSR gramer düzenleyicisi birkaç bin kelimeyi gecikmesiz işleyebilecek kadar çok hızlıdır. Daha büyük gramerler önderleme formuna sokulabilir.OSR eğer istenirse merkezileştirilmiş gramer derleme sistemi kullanılarak biçimlendirilebilir.

*Paralel Gramerler: OSR çoklu gramerlerin, onları birleştirmek için ‘wrapper gramer’ kullanımına gerek kalmadan, paralel olarak depolanmasına imkan sağlar. Bu tek birleştirilmiş gramerin derlemesini yok ederek verimliliği arttırır .OSR derlenmiş ve kaynak gramerlerin karıştırılmasına izin verir.

*ECMAScript Desteği: OSR; tanımlama işlemi süresince olan uygulama –özel işlemine izin vererek SALT için gereken gramerlerde gömülmüş ECMAScriptlere destek verir. ECMAScript standart ve genel amaçlı script dilidir. Scripting genelde dönüş değerlerini hesaplamak için kullanılır fakat ayrıca illegal gramer yollarını engellemek için de kullanılabilir.

*DTMF Gramerleri: OSR’de SALT için gerektiği gibi DTMF gramerleri işlem görecektir.OSR iştsel sinyallerin şifresini tek başına çözmez ayrıca tanımlanmış bir DTMF’ye de ihtiyacı vardır.

*Built-in Gramerler: OSR, ortak görevleri (boolen,para birimi,tarih,basamaklar,numara,telefon numarası ve zaman) yapmak için SALT tarafından gereken yedi tane built-in gramere sahiptir.

*Sonuç Formatı: OSR sonuçları ,semantic tercümanlık için SALT tarafından önerilen Naturel Language Semantic Markup Language (NLSML) formatına çevirir.

Gramer araçları

Open speech recognizer , ses tanımlama gramerinin gelişimi ve devamında yardım için bir kaç aracı kapsar;

*Ayıklama(Parse) Aracı: OSR’de, özel ifadelerin çevrilmesi kontrol edilerek; gramerin test edilmesi için bir komut satırı aracı vardır.

*Gramer Derleyici (Compiler): OSR’de gramerin offline derlenmesi için kullanılan bir araç vardır. Gramerin gerektiği anda hemen OSR tarafından derlenmesine rağmen,çok geniş gramerler runtime sistem kaynaklarını korumak için önderleme işlemine sokulur.

*Gramer Editörü: OSR’de ; gramer sentaks yanlışlarını belirten ve diğer gramer araçlarına bir giriş sağlayan , ifadelerin dönüşümü için grameri test eden ve gramerleri ikili(binary) form da derleyen tekst tabanlı bir editördür.

*Gramer Dönüştürücü (Converter): OSR’de farklı gramer formatlarını (ABNF,Scansoft 6.x format,GSL) OSR tarafından kabul edilen SRGS formatına dönüştürmeyi sağlayan bir araç vardır.

OSR ve Ses tanıma teknikleri hakkında daha fazla bilgi için http://www.scansoft.com/network adresini ziyaret edebilirsiniz.

Not : Bu yazı ScanSoft.com sitesinde yayınlanmış bir makaleden çevrilmiştir.

Makale:
Ses Tanıma(Speeach Recognition) ve OSR C ve Sistem Programlama Gökçen Yıldırım

Yazılan Yorumlar
Yorum Yaz

Bu konu hakkında yayınlanan yorum bulunmamaktadır.
"Yorum Yaz" tabını kullanarak sizde yorumlarınızı yazabilirsiniz.

Yorum yazabilmek için üye girişi yapmalısınız. Üye girişi için tıklayın.
Üye değilseniz Üyel Ol linkine tıklayarak üyeliğinizi hemen başlatabilirisniz.

Bu Konuda Son 10
Eklenen Son 10
Bu Konuda Geçmiş 10

Bu Konuda Yazılmış Yazılmış 10 Makale Yükleniyor

Son Eklenen 10 Makale Yükleniyor

Bu Konuda Yazılmış Geçmiş Makaleler Yükleniyor

Makaleler
Serbest Köşe
Makale Gönder

.Net TV
Video Gönder

Canlı Köşe
Kaynak Kod
Forum

Haberler
Röportajlar
Anketler

C# Nedir?
İletişim
Site Haritası
RSS
Favorilere Ekle

Üyelik
Hesap Aktivasyon
Ekibimiz
Ekibe Katıl