Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN

Slides:

Advertisements

Benzer bir sunumlar

Unsupervised Learning (Kümeleme)

Advertisements

AES (Advanced Encryption Standart)

ÖLÇME VE DEĞERLENDİRME Temel Kavramlar

KARANLIKDERE PLANLAMA BİRİMİ İÇİN UYGULAMALI ANALİZLER

Kümeleme Modeli (Clustering)

SORUNU ÇÖZÜMLEME Dr. Y. İlker TOPCU

Asansör Simülatörünün Ürettiği Sonuçlar Üzerinde Yapılan K-means++ Kümeleme Çalışması ile Trafik Türünün Tahmini M. Fatih ADAK Bilgisayar Mühendisliği.

BİLGİ TEKNOLOJİLERİ EĞİTİMİNDE BDÖ YAZILIMI KULLANMA VE UYGULAMA SONUÇLARINA YÖNELİK BİR ÇALIŞMA Okut. Halit KARALAR (Muğla Üniv.Enf.Bölümü) Dr. Yaşar.

Yüz Tanıma İçin İlinti Tabanlı Yama Yerelleştirme

Bellek Tabanlı Sınıflandırma

İNTERNET TARAYICILARINDA YENİ NESİL GRAFİK TEKNOLOJİLERİ

E-İçerik Arama, Bulma ve Seçme

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Karar Ağaçları.

Türkçe Dokümanlarda Yapay Sinir Ağları ile Yazar Tanıma

Parmak İzİ kullanarak görüntü şİfreleme

NESNELER ARASINDAKİ UZAYSAL İLİŞKİLER ÜZERİNE BİR UYGULAMA

Kalp-Damar Sistemi Hastalıkları Hakkında Bilgi

HTML (HYPER TEXT MARKUP LANGUAGE) TEMEL ETİKETLERİ

SÖZDE –KODLAR (pseudo-code)

Bilgisayar Programlama

İKİDEN ÇOK (K) ÖRNEKLEM TESTLERİ

MİCROSOFT WORD 2003.

İki Ortalama Farkının Test Edilmesi

TIP FAKÜLTESİ ÖĞRENCİLERİNİN BAŞARISINDA

Merkezi Eğilim (Yer) Ölçüleri

=>NOKTALAMA İŞARETLERİ<=

Merkezi Eğilim (Yer) Ölçüleri

Rakam Tanıma İçin KNN ve LDA Algoritmalarının Karşılaştırılması

Makİne Öğrenmesİ İle Ürün SInIflandIrma İncelemesi

M.Fatih AMASYALI Uzman Sistemler Ders Notları

HTML (Hyper Text Markup Language) İnternet dökümanları oluşturmaya yarayan işaretleme dilidir.

Z ve T puanları Yrd. Doç. Dr. Cenk Akbıyık.

11 - YAPILANDIRILMIŞ GRİD

ARAŞTIRMA TÜRLERİ.

Demetleme (Clustering)

Fatih Karaokur - Computer Teacher

Mühendislikte Bilgisayar Uygulamaları

12.HAFTA İÇERİK VARYANS ANALİZİ Giriş Tek Faktörlü Varyans Analizi

TOBB Ekonomi ve Teknoloji Üniversitesi Fen Bilimleri Enstitüsü Tez Çalışması Orijinallik Raporu Alınması ve Kullanılması Uygulama Esasları.

Adım Adım Algoritma.

Hesaplama Tabloları (MS For Mac Excel -2) Öğr.Gör. Mehmet Akif Barış.

ALAN SEÇİMİ ÇALIŞMALARI Öğretmen görüşlerinin alınması Öğrenci sınav notlarının değerlendirilmesi Öğrencinin ilgilerinin göz önünde bulundurulması 10.Sınıf.

BİL551 – YAPAY ZEKA Kümeleme

HTML HTML Nedir? HTML Ne İşe Yarar?. HTML (HyperText Markup Language / Hareketli-Metin İşaretleme Dili) basitçe, tarayıcılarla görebileceğimiz, internet.

Web Tasarımı 2.Hafta. HTML Nedir  Hyper Text Markup Language (Hiper Metin İşaretleme Dili) web sayfalarını oluşturmak için kullanılan standart metin.

Bölüm 4 : VERİ MADENCİLİĞİ

Hafta 4: Dizinleme Süreçleri ve Dizinleme İşlemleri BBY 264 Dizinleme ve Sınıflama.

Bilgisayar Mühendisliği Bölümü

KIRIKKALE ÜNİVERSİTESİ

. «Sisteme Giriş» alanı «Dil Seçeneği» alanı.

Kümeleme Modeli (Clustering)

Algoritmalar II Ders 8 Açgözlü Algoritmalar.

DEĞİŞİM ÖLÇÜLERİ.

Havacılıkta İnsan Kaynakları Eğitimde 4. hafta, fiilen 3

Net 107 Sayısal elektronik Öğr. Gör. Burcu yakışır girgin

MİCROSOFT WORD KELİME İŞLEMCİ

Fırat Üniversitesi Mühendislik Fakültesi Elektrik-Elektronik Müh.

Yıldıray YALMAN Doç. Dr. İsmail ERTÜRK

Ontoloji Tabanlı Bir Kitap Sorgulama Sistemi Gerçekleştirimi

AES S Kutusuna Benzer S Kutuları Üreten Simulatör

Bilgi Güvenliğinde El Yazısı

Mehmet Fatih KARACA Yrd. Doç. Dr. Salih GÖRGÜNOĞLU

Yrd. Doç. Dr. Abdullah BAYKAL Konuşmacı : Cengiz Coşkun

Tasarım: Ali Topal.

Dünya Üzerine Yayılmış Çok-Kullanıcılı Çevrim-İçi Eğitsel

Metin Madenciliği ile Benzer Haber Tespiti

Hastane Bilgi Sistemlerinde Veri Madenciliği

Karar Ağaçları Destekli Vadeli Mevduat Analizi

Sunum transkripti:

Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN Gaziosmanpaşa Üniversitesi, Erbaa Meslek Yüksekokulu

Giriş Bu çalışma, "Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi"ni hem sınıflandırma başarısı hem de işlem süresi açısından incelemeyi amaçlamıştır. Çalışmada aşağıdaki yazılım ve eklentilerden faydalanılmıştır; Visual Basic, Java, Zemberek (Türkçe Doğal Dil İşleme kütüphanesi) kullanılmıştır. Köşe yazılarının alınmasından sınıflandırmasına kadar olan bütün işlemler geliştirilen yazılımla gerçekleştirilmiştir.

Sistem Yapısı (Sınıflandırma Adımları) Veri kümesi, Ön işlem, Özellik seçimi , Sözcük (terim) ağırlıklandırma, Sınıf özellik ve doküman vektörleri, Benzerlik hesaplama, Sınıflandırma.

Sistem Yapısı (Veri Kümesi) İnternette yayın yapan 7 gazete ve 27 yazarın köşe yazıları eğitim ve test dokümanı olarak kullanılmıştır. Ekonomi, Spor, Sağlık, Eğitim ve Yaşam kategorileri bulunmaktadır. Her sınıfta eşit sayıda ve 100’er adet eğitim, 50’şer adet test dokümanı ile çalışma gerçekleştirilmiştir. Dokümanlar program aracılığıyla elde edilmiştir. Dengeli veri kümesi kullanılmıştır.

Sistem Yapısı (Ön İşlem) Metin analizi işlemlerinde sınıflandırma ve benzerlik bulma, metinle değil metni oluşturan sözcüklerle yapılmaktadır. Bu sözcüklerin elde edilmesindeki ilk basamak ön işlem adımıdır. Hem eğitim hem de test dokümanları sınıflandırma öncesinde ön işlemden geçirilir ve metni oluşturan kelimelerin kökleri olan sözcükler elde edilir. Ön işlem aşaması eldeki verinin formatına göre değişkenlik gösterebilir.

Sistem Yapısı (Ön İşlem) Web verileri normal metinlerin ön işlem aşamalarından farklıdır ve şu şekildedir; Metni HTML etiketlerinden temizlemek; Başlangıç ve bitiş etiketleri arasında kalan metin Body.InnerText koduyla HTML etiketlerinden arındırılır. Özel karakterlerden temizlemek; Metin, Türkçe olmayan karakterlerden, sayılardan, çeşitli noktalama işaretlerinden temizlenir. Gereksiz kelimelerden (stop words) temizlemek; Ama, bile, gibi, oysa, sonra, tabi, veya, zaten … Sonuçta elde edilen kelimeleri köklerine ayırarak sözcükleri elde etmek. En uzun kök kelime kökü olarak kabul edilmiştir (Zemberek).

Sistem Yapısı (Özellik Seçimi) Metin sınıflandırmada özellik seçimi sadece boyutun azaltılarak çalışma zamanın düşürülmesi şeklinde değerlendirilmemeli, başarıya olan etkileri de göz önüne alınmalıdır. Kullanılan yöntemler; Yöntem1: Her sınıfta en fazla sayıda dokümanda geçen ve her sınıftan 175’er kelime ile oluşturulan sözlük. Yöntem2: Dokümanlardaki bütün ayrık kelimelerle oluşturulan sözlük.

Sistem Yapısı (Sözcük Ağırlıklandırma) Özellik seçimi sonrası elde edilen sözcüklerin kendileri değil onları temsil eden sayısal değerleri kullanılır. Ağırlıklandırma işlemine sözcüklerin doküman üzerindeki etkisi de denilebilir. Yapısal olmayan metinler ağırlıklandırma ile tam olarak yapısal hale dönüştürülmüş olur.

Sistem Yapısı (Sözcük Ağırlıklandırma) Bu çalışmada binary ağırlıklandırma kullanılmıştır. Bu ağırlıklandırma binary, bit veya boolean ağırlıklandırma olarak isimlendirilmektedir. Sözcüğün doküman içerisinde varlığı veya yokluğu ile ilgilenir. Birçok çalışmada temel olarak tercih edilmektedir.

Sistem Yapısı (Sınıf Özellik ve Doküman Vektörü) Metin madenciliği çalışmalarında iki vektör kullanılır; Sınıf özellik vektörü, çalışmada kullanılacak sözcüklerin vektörel ifadesidir. Doküman vektörleri, sınıf özellik vektörünü oluşturan sözcüklerin dokümanda geçme durumlarına bağlı olarak sözcüklerin ağırlıklandırılmış halleriyle meydana gelmiş vektörlerdir.

Sistem Yapısı (Benzerlik Hesaplama) Sınıflandırma işleminde vektörel olarak ifade edilen eğitim ile test dokümanları arasındaki benzerlik ve mesafe ölçülür. Bu ölçüm neticesinde benzerliği ifade eden bir değer bulunur. Bazı tekniklerde bu değerin yüksekliği (azalan), bazılarında ise düşüklüğü (artan) dokümanların benzerliğini ifade eder.

Sistem Yapısı (Benzerlik Hesaplama) Kullanılan teknikler şunlardır; ↓ (Artan), ↑ (Azalan) Euclidean Distance ↓, Manhattan Distance ↓, Minkowski Distance ↓, Canberra Distance ↓, Bray Curtis Distance ↓, Cosine Similarity↑, Tanimoto Similarity ↑, Dice Coefficient ↑, Pearson Corr. Coefficient ↑, Inner Product ↑, Soergel ↓, Overlap ↑, Harmonic Mean ↑, Squared Chord ↓, Squared x2 ↓.

Sistem Yapısı (Sınıflandırma) Metin sınıflandırma, önceden belirlenmiş kategorilere dokümanların atanmasıdır. Kullanılan benzerlik hesaplama ve sınıflandırma algoritmasına göre sınıflandırma işlemi gerçekleştirilir ve farklılık gösterebilir. Test dokümanı hangi eğitim dokümanına yakınsa (benzerse) o eğitim dokümanın bulunduğu sınıfa ait olduğu düşünülür. Test dokümanı ile bütün eğitim dokümanlarının benzerlikleri tek tek hesaplanır ve benzerlik değerine göre eğitim dokümanları artan veya azalan şekilde sıralanır.

Sistem Yapısı (Sınıflandırma Algoritması) kNN, önceden belirlenmiş k değeri kullanılarak eğitim dokümanlarından sınıflandırılacak olan test dokümanına en çok benzeyen k eğitim dokümanı içerisindeki en fazla sayıda tekrar eden sınıfın test dokümanının sınıfına atanmasıdır. Çalışmada k komşu değeri 7 olarak kullanılmıştır.

Sistem Yapısı (Sınıflandırma Başarısı) Sınıflandırma başarısı denklemde verilen şekilde hesaplanmıştır; başarı= doğru sınıflandırılan test dokümanı sayısı toplam test doküman sayısı ×100 Sınıflandırma süresi ise saniye cinsinden olup sınıflandırmanın başladığı ve bittiği an dikkate alınarak ölçülmüştür.

Değerlendirme (Genel) 5 benzerlik bulma tekniği ile %100 doğrulukta sınıflandırma gerçekleştirilmiştir; Yöntem 1: 2 teknikle Yöntem 2: 3 teknikle Her ne kadar Yöntem 2’de daha fazla sayıda %100 doğrulukta sınıflandırma gerçekleştirilse de özellik seçimi uygulanan Yöntem 1 ortalamasının daha yüksek olduğu görülmüştür.

Değerlendirme (Sınıflandırma Başarısı) Sınıflandırma başarısı aynı olan teknikler; Euclidean, Manhattan, Minkowski, Squared Chord, Squared x2, Canberra, Inner Product, Harmonic Mean, Bray Curtis, Tanimoto, Dice, Cosinus, Pearson Correlation.

Değerlendirme (Sınıflandırma Başarısı) Sınıflandırma başarısı farklı olan teknikler; Soergel, Overlap.

Değerlendirme (Sınıflandırma Süresi) Sınıflandırma süresi olarak; En başarılı teknikler Canberra ve Harmonic Mean, En başarısız olan ise Minkowski olduğu görülmüştür.

Tablo 1. Yöntem1’e göre sınıflandırma sonuçları. Euclidean Manhattan Euclidean Manhattan Minkowski Canberra Bray Curtis Cosine Tanimoto Dice Pearson Correlation Inner Product Soergel Overlap Harmonic Mean Squared Chord Squared x2 Sınıf Ortalaması Ekonomi 88 98 100 94.9 Spor 92 94 96 95.5 Sağlık 96.5 Eğitim 44 74 64 82.0 Yaşam 97.3 Ortalama 93.2 84.8 99.2 100.0 91.6 89.2 93.3 Tablo 1. Yöntem1’e göre sınıflandırma sonuçları. Euclidean Manhattan Minkowski Canberra Bray Curtis Cosine Tanimoto Dice Pearson Correlation Inner Product Soergel Overlap Harmonic Mean Squared Chord Squared x2 Sınıf Ortalaması Ekonomi 48 98 100 82 81.1 Spor 16 66 69.2 Sağlık 38 62 76.3 Eğitim 56 68 84.7 Yaşam 2 58 96 64.3 Ortalama 40.8 90.0 100.0 99.6 61.2 92.0 75.1 Tablo 2. Yöntem2’ye göre sınıflandırma sonuçları. Euclidean Manhattan Minkowski Canberra Bray Curtis Cosine Tanimoto Dice Pearson Correlation Inner Product Soergel Overlap Harmonic Mean Squared Chord Squared x2 Sınıf Ortalaması Yöntem1 39 37 41 42 40 45 Yöntem2 98 156 68 143 105 106 104 100 97 109 114 144 130 Ortalama 69 99 53 93 73 72 70 67 75 78 92 88 Tablo 3. İşlem süreleri (Saniye cinsinden).

Ekran Görüntüsü Ana Ekran Köşe Yazısı İşlemleri Madencilik İşlemleri

Köşe Yazısı İşlemleri

Madencilik İşlemleri

Uygulama Köşe Yazısı İşlemleri; Madencilik İşlemleri; Link bilgilerini alma/kaydetme. İçerik alma/kaydetme. Kelime köklerine ayırma/stop words kaldırma. Köşe yazısı kelime dağılımı yapma. Köşe yazısı kategori atama. Madencilik İşlemleri; Özellik seçimi sonucu oluşan kelimeleri belirleme (sınıf özellik vektörü oluşturma). Doküman vektörlerini oluşturma. Tekil ve çoklu sınıflandırma. Test sonuçlarını görüntüleme.

Teşekkür ederiz.