Bu site emekli olmuştur. Arşiv amaçlı olarak BT AKADEMİ sponsorluğunda yayın hayatına devam etmektedir.




C#nedir?com
 
YAZAR HAKKINDA
İsmail  Pilavcılar
İsmail Pilavcılar
http://www.csharpnedir.com/
İletişme geçmek için tıklayın.
3 Makalesi yayınlanmakta.
Yazar hakkında detaylı bilgi için tıklayın.
Yayınlanan diğer makaleleri için tıklayın.
İlgili etiketler: algoritmalar analiz arasindaki bilgiler ilgili intranetlerde kategoriye kelimeler kelimelerin kullanilan madenciligi makalelerde otomatik siniflandirma uzayda Yazılım Müh. İsmail Pilavcılar
 
YAZI HAKKINDA
Türü : Makale
Serbest Köşede C#nedir?com üyelerinin hazırladıkları yazılar yayınlanır. Bu yazılar editör incelemesine girmeden yayınlanır.
Seviyesi : Başlangıç
Kategori : Yazılım Müh.
Yayınlanma Tarihi : 18.4.2007
Okunma Sayısı : 42509
Yorum Sayısı : 7     yorum yaz
Site İçi AramaSİTE İÇİ ARAMA
Üye Girişini AçÜye GİRİŞİ
Üye girişi için tıklayın.
Kullanıcı Adı
Şifre
 
Beni her zaman hatırla
Bir hafta boyunca kullanıcı bilgilerinizi kullanıcı çıkışı yapana kadar hatırlar. (Paylaşılan bilgisayarlarda önerilmez.)
 
Şifremi / Kullanıcı Adımı unuttum.
 
.net TV RSS Serbest KÖŞE (?)
Serbest Köşede C#nedir?com üyelerinin hazırladıkları yazılar yayınlanır. Bu yazılar editör incelemesine girmeden yayınlanır.
emre TAŞ
Silindi
emre TAŞ
yazının devamı >
emre TAŞ
silindi
emre TAŞ
yazının devamı >
emre TAŞ
silindi
emre TAŞ
yazının devamı >
emre TAŞ
silindi
emre TAŞ
yazının devamı >
emre TAŞ
silindi
emre TAŞ
yazının devamı >
Makale Gönder Bende Yazmak İstiyorum
.net TV RSSBlogroll
Turhal Temizer
Conda install environment.yml Package 21.11.2024
Turhal Temizer
Mac OS/X Removing CUDA 21.11.2024
Burak Selim Şenyurt
Rust ile ECS Yaklaşımını Anlamak 21.11.2024
Burak Selim Şenyurt
Birlikte Rust Öğrenelim Serisi 21.11.2024
  Diğer Herşey
Sponsorlar
BT Akademi
Medya Portakal
Video Hosting Sponsoru
Csharpnedir.com bir Ineta üyesidir
Uzman Abi
Her Yönüyle C# - Sefer Algan
Metin Madenciliği Ile Metin Sınıflandırma - 1
 
Kapat
Sayfayı Yazdır Sık Kullanılanlara Ekle Arkadaşıma Gönder MySpace Del.Ico.Us Digg Facebook Google Mixx Reddit StumbleUpon
Bu makalemizde Metin Madenciliğinin temellerinden (Text Mining) bahsedilecek,ileriki makalelerde de metin madenciliğinde kullanılan algoritmalar ile örnek uygulamalar yapılacak ve çok sayıda haber metninin yüksek bir doğruluk oranı ile nasıl otomatik olarak sınıflandırılabileceğini yapacağımız program ile göreceğiz.Öncelikle metin madenciliği ile ilgili genel bilgiler ile başlayalım.Yazı dizimizin sonunda internetten alınan rastgele haber metinlerini programa sokarak en uygun kategoriye atayacağız.Projemizde kullanacağımız matematiksel algoritmaları mümkün olduğunca anlaşılabilir olması için ayrıntılı açıklamaya çalışacağım.

Günümüzde veritabanlarında,internet ve intranetlerde çok büyük miktarda bilgi depolanır.Bu bilgi dökümanlarda veya metin dökümanlarında tutulmaktadır.Bu bilgilerden önemli bilgiler çıkartmak,keşfedilmemiş desenleri bulmak buradaki esas problemimizdir.Bu problem eskiden beri vardır.

Geleneksel olarak problem, Dewey ondalık sınıflandırma sistemi ile veya karakteristik anahtar kelimeler verme yöntemi ile dökümanları sınıflandırarak ve onlara böylece erişerek çözülür.Günümüzde bir çok şirket veritabanlarında,internet ve intranetlerde bir çok sınıflandırılmamış döküman bulunmaktadır.İlk olarak bazı terimlerin tanımlaması yapılmalıdır.

Metin Süzme: Dökümanların dinamik bir metin akımından seçilerek, bu dökümanlarda bilgi arama işlemidir.
Metin Madenciliği: Özel amaçlar için,metinden bazı bilgiler çıkarmak adına metinin analiz edilme işlemidir.
Metin Kategorizasyonu: Büyük bir dökümanlar kümesinden benzer dökümanları sınıflandırma işlemidir.

Tüm bu terimler, birbirleriyle örtüşmektedirler.Metin madenciliği (döküman bilgisi madenciliği,metin verisi madenciliği veya metinsel veritabanlarından bilgi çıkarımı olarak da bilinir),ilginç ve önemsiz olmayan örüntüleri veya bilgiyi çıkarma amacı için ,biçimsiz ve sayıca çok döküman analiz etme teknolojisidir.Çözülmesi gereken tipik problemler şunlardır: dil belirleme, terim seçimi/ çıkarma, kümeleme, doğal dil işleme, özetleme, kategorizasyon, araştırma, indeksleme ve canlandırmadır.

Dökümanların otomatik olarak sınıflandırılabilmesi için vektörel olarak ifade edilmesi,ve bu şekilde çeşitli algoritmalar kullanılması gereklidir.Bunun için vektör uzay modelinden kısaca bahsedelim

VEKTÖR UZAY MODELİ

Vektör uzay modeli bilgi çıkarımı,bilgi filtreleme,indeksleme gibi alanlarda kullanılan cebirsel bir modeldir.Doğal dil belgelerinin çok boyutlu uzayda özel bir anlamını simgelemektedir.



Dökümanlar şekilde götüldüğü gibi kelimelerin vektörleri olarak ifade edilirler.T’ler aslında kelimeleri ifade etmektedirler.
Anahtar kelime araması yapılan dökümanların ilişki düzeyleri, döküman benzerlik teorisindeki varsayımlar kullanılarak, yani her bir döküman vektörü ile orijinal sorgu vektörü arasındaki açıların sapmalarını karşılaştırarak, hesaplanabilir.
Vektörler arasındaki gerçek açıların hesaplanması yerine, vektörler arasındaki açının cosinüsü hesaplanır ve karşılaştırılır.(KNN Algoritması)

Temel Prensip

Metin sınıflandırma işleminin temel adımı sınıflandırmak istediğimiz dökümanı ve eğitim dökümanlarımızı vektörel olarak uzayda ifade edebilmektir.Bir çok metin sınıflandırma algoritması bu prensibe dayanır. Bunun için uzay eksenlerini belirlemeliyiz. Uzayımızın eksenlerini aslında bizim kategori belirttiğini düşündüğümüz kelimeler oluşturacaktır. Bu kelimeler de sözlükte, yani kelimeler tablosunda tutulmuştur.Bu tablonun nasıl ve hangi kurallara göre oluşturulacağı ilerleyen makalelerde anlatılacaktır.

Dökümanlarımızı vektör olarak temsil edebilmek için metnin içerisinde geçen kelimelerin bir takım işlemlere sokulması gereklidir(Pre-Processing). Bu işlemin sonucunda vektörlerimiz oluşacaktır.

Sistemimizin verilen metinden kategorileri otomatik olarak bulabilmesi için eğitilmesi gereklidir.Bunun için kategori belirten makaleler sistemimizi eğitmek için kullanılmıştır.Bu makaleler ile arka planda sözlüğümüzün boyutu ile sınırlandırılmış vektorler oluşturulup, kategorisi bulunması istenen dökümanın vektörü ile çeşitli algoritmalarla(KNN-Naive Bayes) karşılaştırılarak sınıflandırılmak istenen döküman ilgili kategoriye atanacaktır.

Ticari ürünler

http://www.clearforest.com/
http://www.trl.ibm.com/projects/textmining/takmi/takmi_e.htm
http://www.megaputer.com/

Metin inceleme
http://www.textanalysis.info/


Makalemizin 2.bölümünde görüşmek üzere.Herkese iyi çalışmalar.

İsmail Ferhat Pilavcılar
[email protected]

Makale:
Metin Madenciliği Ile Metin Sınıflandırma - 1 Yazılım Mühendisliği İsmail Pilavcılar
  • Yazılan Yorumlar
  • Yorum Yaz
OCA
3
2016
https://www.seondex.com dan buraya yönlendirdiler. Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.
OCA
3
2016
https://www.seondex.com dan buraya yönlendirdiler. Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.
OCA
3
2016
Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.
OCA
3
2016
https://www.seondex.com dan buraya yönlendirdiler. Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.
OCA
3
2016
https://www.seondex.com dan buraya yönlendirdiler. Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.
OCA
3
2016
https.//www.seondex.com dan buraya yönlendirdiler. Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.
Sayfalar : 1 
Yorum yazabilmek için üye girişi yapmalısınız. Üye girişi için tıklayın.
Üye değilseniz Üyel Ol linkine tıklayarak üyeliğinizi hemen başlatabilirisniz.
 
  • Bu Konuda Son 10
  • Eklenen Son 10
  • Bu Konuda Geçmiş 10
Bu Konuda Yazılmış Yazılmış 10 Makale Yükleniyor
Son Eklenen 10 Makale Yükleniyor
Bu Konuda Yazılmış Geçmiş Makaleler Yükleniyor