Metin Madenciliği Ile Metin Sınıflandırma

Ana Sayfa

.net TV

Makaleler

Kaynak Kod

Haberler

Serbest Köşe

Canlı Köşe

Forum

C#nedir?

Ekibimiz

RSS

ADO.NET/SQL	C / Sys Prog.	Genel	Mono ve .NET	Silverlight	XML / Web Serv.
X86 Assembly	C++ / C++.NET	J#.NET / Java	.NET 3.x	UML / Analiz	Yazılım Müh.
ASP.NET	C# / VC#/.NET	Mobil Prog.	PHP 5

YAZAR HAKKINDA

İsmail Pilavcılar
http://www.csharpnedir.com/
İletişme geçmek için tıklayın.
3 Makalesi yayınlanmakta.
Yazar hakkında detaylı bilgi için tıklayın.
Yayınlanan diğer makaleleri için tıklayın.
İlgili etiketler: algoritmalar analiz arasindaki bilgiler ilgili intranetlerde kategoriye kelimeler kelimelerin kullanilan madenciligi makalelerde otomatik siniflandirma uzayda Yazılım Müh. İsmail Pilavcılar

YAZI HAKKINDA

Türü	: Makale Serbest Köşede C#nedir?com üyelerinin hazırladıkları yazılar yayınlanır. Bu yazılar editör incelemesine girmeden yayınlanır.
Seviyesi	: Başlangıç
Kategori	: Yazılım Müh.
Yayınlanma Tarihi	: 18.4.2007
Okunma Sayısı	: 48005
Yorum Sayısı	: 7 yorum yaz

SİTE İÇİ ARAMA

Üye GİRİŞİ

Üye girişi için tıklayın.

Kullanıcı Adı

Şifre

	Beni her zaman hatırla
	Bir hafta boyunca kullanıcı bilgilerinizi kullanıcı çıkışı yapana kadar hatırlar. (Paylaşılan bilgisayarlarda önerilmez.)

Şifremi / Kullanıcı Adımı unuttum.

C#nedir? hesabınız yok mu?
Üye olabilmek için tıklayın.

Serbest KÖŞE (?)

Serbest Köşede C#nedir?com üyelerinin hazırladıkları yazılar yayınlanır. Bu yazılar editör incelemesine girmeden yayınlanır.

Silindi
emre TAŞ
yazının devamı >

silindi
emre TAŞ
yazının devamı >

Bende Yazmak İstiyorum

Blogroll

Burak Selim Şenyurt
Bunu Bir Dene 00 - Metot Argümanlarında Değişiklik (C#, Rust ve Zig) 13.2.2026

Burak Selim Şenyurt
Rust ile Kodlama İdmanları - İleri Seviye 13.2.2026

Diğer Herşey

» Makaleler RSS
» Video Gönder
» Makale Gönder
» Serbest Köşeye Yazı Gönder
» Yazar Başvurusu
» C#nedir? Ekibinde Olmalıyım!

Sponsorlar

Metin Madenciliği Ile Metin Sınıflandırma - 1

Favorilerime Ekle

arkadaşıma gönder
Arkadaşınızın email adresi:
*
Mesajınız:

Bu makalemizde Metin Madenciliğinin temellerinden (Text Mining) bahsedilecek,ileriki makalelerde de metin madenciliğinde kullanılan algoritmalar ile örnek uygulamalar yapılacak ve çok sayıda haber metninin yüksek bir doğruluk oranı ile nasıl otomatik olarak sınıflandırılabileceğini yapacağımız program ile göreceğiz.Öncelikle metin madenciliği ile ilgili genel bilgiler ile başlayalım.Yazı dizimizin sonunda internetten alınan rastgele haber metinlerini programa sokarak en uygun kategoriye atayacağız.Projemizde kullanacağımız matematiksel algoritmaları mümkün olduğunca anlaşılabilir olması için ayrıntılı açıklamaya çalışacağım.

Günümüzde veritabanlarında,internet ve intranetlerde çok büyük miktarda bilgi depolanır.Bu bilgi dökümanlarda veya metin dökümanlarında tutulmaktadır.Bu bilgilerden önemli bilgiler çıkartmak,keşfedilmemiş desenleri bulmak buradaki esas problemimizdir.Bu problem eskiden beri vardır.

Geleneksel olarak problem, Dewey ondalık sınıflandırma sistemi ile veya karakteristik anahtar kelimeler verme yöntemi ile dökümanları sınıflandırarak ve onlara böylece erişerek çözülür.Günümüzde bir çok şirket veritabanlarında,internet ve intranetlerde bir çok sınıflandırılmamış döküman bulunmaktadır.İlk olarak bazı terimlerin tanımlaması yapılmalıdır.

Metin Süzme: Dökümanların dinamik bir metin akımından seçilerek, bu dökümanlarda bilgi arama işlemidir.
Metin Madenciliği: Özel amaçlar için,metinden bazı bilgiler çıkarmak adına metinin analiz edilme işlemidir.
Metin Kategorizasyonu: Büyük bir dökümanlar kümesinden benzer dökümanları sınıflandırma işlemidir.

Tüm bu terimler, birbirleriyle örtüşmektedirler.Metin madenciliği (döküman bilgisi madenciliği,metin verisi madenciliği veya metinsel veritabanlarından bilgi çıkarımı olarak da bilinir),ilginç ve önemsiz olmayan örüntüleri veya bilgiyi çıkarma amacı için ,biçimsiz ve sayıca çok döküman analiz etme teknolojisidir.Çözülmesi gereken tipik problemler şunlardır: dil belirleme, terim seçimi/ çıkarma, kümeleme, doğal dil işleme, özetleme, kategorizasyon, araştırma, indeksleme ve canlandırmadır.

Dökümanların otomatik olarak sınıflandırılabilmesi için vektörel olarak ifade edilmesi,ve bu şekilde çeşitli algoritmalar kullanılması gereklidir.Bunun için vektör uzay modelinden kısaca bahsedelim

VEKTÖR UZAY MODELİ

Vektör uzay modeli bilgi çıkarımı,bilgi filtreleme,indeksleme gibi alanlarda kullanılan cebirsel bir modeldir.Doğal dil belgelerinin çok boyutlu uzayda özel bir anlamını simgelemektedir.

Dökümanlar şekilde götüldüğü gibi kelimelerin vektörleri olarak ifade edilirler.T’ler aslında kelimeleri ifade etmektedirler.
Anahtar kelime araması yapılan dökümanların ilişki düzeyleri, döküman benzerlik teorisindeki varsayımlar kullanılarak, yani her bir döküman vektörü ile orijinal sorgu vektörü arasındaki açıların sapmalarını karşılaştırarak, hesaplanabilir.
Vektörler arasındaki gerçek açıların hesaplanması yerine, vektörler arasındaki açının cosinüsü hesaplanır ve karşılaştırılır.(KNN Algoritması)

Temel Prensip

Metin sınıflandırma işleminin temel adımı sınıflandırmak istediğimiz dökümanı ve eğitim dökümanlarımızı vektörel olarak uzayda ifade edebilmektir.Bir çok metin sınıflandırma algoritması bu prensibe dayanır. Bunun için uzay eksenlerini belirlemeliyiz. Uzayımızın eksenlerini aslında bizim kategori belirttiğini düşündüğümüz kelimeler oluşturacaktır. Bu kelimeler de sözlükte, yani kelimeler tablosunda tutulmuştur.Bu tablonun nasıl ve hangi kurallara göre oluşturulacağı ilerleyen makalelerde anlatılacaktır.

Dökümanlarımızı vektör olarak temsil edebilmek için metnin içerisinde geçen kelimelerin bir takım işlemlere sokulması gereklidir(Pre-Processing). Bu işlemin sonucunda vektörlerimiz oluşacaktır.

Sistemimizin verilen metinden kategorileri otomatik olarak bulabilmesi için eğitilmesi gereklidir.Bunun için kategori belirten makaleler sistemimizi eğitmek için kullanılmıştır.Bu makaleler ile arka planda sözlüğümüzün boyutu ile sınırlandırılmış vektorler oluşturulup, kategorisi bulunması istenen dökümanın vektörü ile çeşitli algoritmalarla(KNN-Naive Bayes) karşılaştırılarak sınıflandırılmak istenen döküman ilgili kategoriye atanacaktır.

Ticari ürünler

http://www.clearforest.com/
http://www.trl.ibm.com/projects/textmining/takmi/takmi_e.htm
http://www.megaputer.com/

Metin inceleme
http://www.textanalysis.info/

Makalemizin 2.bölümünde görüşmek üzere.Herkese iyi çalışmalar.

İsmail Ferhat Pilavcılar
[email protected]

Makale:
Metin Madenciliği Ile Metin Sınıflandırma - 1 Yazılım Mühendisliği İsmail Pilavcılar

Yazılan Yorumlar
Yorum Yaz

OCA

2016

Mert Türmen / üye hakkında

https://www.seondex.com dan buraya yönlendirdiler. Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.

OCA

2016

Mert Türmen / üye hakkında

https://www.seondex.com dan buraya yönlendirdiler. Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.

OCA

2016

Mert Türmen / üye hakkında

Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.

OCA

2016

Mert Türmen / üye hakkında

https://www.seondex.com dan buraya yönlendirdiler. Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.

OCA

2016

Mert Türmen / üye hakkında

https://www.seondex.com dan buraya yönlendirdiler. Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.

OCA

2016

Mert Türmen / üye hakkında

https.//www.seondex.com dan buraya yönlendirdiler. Gerçekten işime yarayacak bilgileri bulamayacağım diye endişe ediyorum. Çok güzel bilgiler, teşekkür ediyorum.

Sayfalar : 1

Yorum yazabilmek için üye girişi yapmalısınız. Üye girişi için tıklayın.
Üye değilseniz Üyel Ol linkine tıklayarak üyeliğinizi hemen başlatabilirisniz.

Bu Konuda Son 10
Eklenen Son 10
Bu Konuda Geçmiş 10

Bu Konuda Yazılmış Yazılmış 10 Makale Yükleniyor

Son Eklenen 10 Makale Yükleniyor

Bu Konuda Yazılmış Geçmiş Makaleler Yükleniyor

Makaleler
Serbest Köşe
Makale Gönder

.Net TV
Video Gönder

Canlı Köşe
Kaynak Kod
Forum

Haberler
Röportajlar
Anketler

C# Nedir?
İletişim
Site Haritası
RSS
Favorilere Ekle

Üyelik
Hesap Aktivasyon
Ekibimiz
Ekibe Katıl