Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN

Benzer bir sunumlar


... konulu sunumlar: "Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN"— Sunum transkripti:

1 Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi
Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN Gaziosmanpaşa Üniversitesi, Erbaa Meslek Yüksekokulu

2 Giriş Bu çalışma, "Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi"ni hem sınıflandırma başarısı hem de işlem süresi açısından incelemeyi amaçlamıştır. Çalışmada aşağıdaki yazılım ve eklentilerden faydalanılmıştır; Visual Basic, Java, Zemberek (Türkçe Doğal Dil İşleme kütüphanesi) kullanılmıştır. Köşe yazılarının alınmasından sınıflandırmasına kadar olan bütün işlemler geliştirilen yazılımla gerçekleştirilmiştir.

3 Sistem Yapısı (Sınıflandırma Adımları)
Veri kümesi, Ön işlem, Özellik seçimi , Sözcük (terim) ağırlıklandırma, Sınıf özellik ve doküman vektörleri, Benzerlik hesaplama, Sınıflandırma.

4 Sistem Yapısı (Veri Kümesi)
İnternette yayın yapan 7 gazete ve 27 yazarın köşe yazıları eğitim ve test dokümanı olarak kullanılmıştır. Ekonomi, Spor, Sağlık, Eğitim ve Yaşam kategorileri bulunmaktadır. Her sınıfta eşit sayıda ve 100’er adet eğitim, 50’şer adet test dokümanı ile çalışma gerçekleştirilmiştir. Dokümanlar program aracılığıyla elde edilmiştir. Dengeli veri kümesi kullanılmıştır.

5 Sistem Yapısı (Ön İşlem)
Metin analizi işlemlerinde sınıflandırma ve benzerlik bulma, metinle değil metni oluşturan sözcüklerle yapılmaktadır. Bu sözcüklerin elde edilmesindeki ilk basamak ön işlem adımıdır. Hem eğitim hem de test dokümanları sınıflandırma öncesinde ön işlemden geçirilir ve metni oluşturan kelimelerin kökleri olan sözcükler elde edilir. Ön işlem aşaması eldeki verinin formatına göre değişkenlik gösterebilir.

6 Sistem Yapısı (Ön İşlem)
Web verileri normal metinlerin ön işlem aşamalarından farklıdır ve şu şekildedir; Metni HTML etiketlerinden temizlemek; Başlangıç ve bitiş etiketleri arasında kalan metin Body.InnerText koduyla HTML etiketlerinden arındırılır. Özel karakterlerden temizlemek; Metin, Türkçe olmayan karakterlerden, sayılardan, çeşitli noktalama işaretlerinden temizlenir. Gereksiz kelimelerden (stop words) temizlemek; Ama, bile, gibi, oysa, sonra, tabi, veya, zaten … Sonuçta elde edilen kelimeleri köklerine ayırarak sözcükleri elde etmek. En uzun kök kelime kökü olarak kabul edilmiştir (Zemberek).

7 Sistem Yapısı (Özellik Seçimi)
Metin sınıflandırmada özellik seçimi sadece boyutun azaltılarak çalışma zamanın düşürülmesi şeklinde değerlendirilmemeli, başarıya olan etkileri de göz önüne alınmalıdır. Kullanılan yöntemler; Yöntem1: Her sınıfta en fazla sayıda dokümanda geçen ve her sınıftan 175’er kelime ile oluşturulan sözlük. Yöntem2: Dokümanlardaki bütün ayrık kelimelerle oluşturulan sözlük.

8 Sistem Yapısı (Sözcük Ağırlıklandırma)
Özellik seçimi sonrası elde edilen sözcüklerin kendileri değil onları temsil eden sayısal değerleri kullanılır. Ağırlıklandırma işlemine sözcüklerin doküman üzerindeki etkisi de denilebilir. Yapısal olmayan metinler ağırlıklandırma ile tam olarak yapısal hale dönüştürülmüş olur.

9 Sistem Yapısı (Sözcük Ağırlıklandırma)
Bu çalışmada binary ağırlıklandırma kullanılmıştır. Bu ağırlıklandırma binary, bit veya boolean ağırlıklandırma olarak isimlendirilmektedir. Sözcüğün doküman içerisinde varlığı veya yokluğu ile ilgilenir. Birçok çalışmada temel olarak tercih edilmektedir.

10 Sistem Yapısı (Sınıf Özellik ve Doküman Vektörü)
Metin madenciliği çalışmalarında iki vektör kullanılır; Sınıf özellik vektörü, çalışmada kullanılacak sözcüklerin vektörel ifadesidir. Doküman vektörleri, sınıf özellik vektörünü oluşturan sözcüklerin dokümanda geçme durumlarına bağlı olarak sözcüklerin ağırlıklandırılmış halleriyle meydana gelmiş vektörlerdir.

11 Sistem Yapısı (Benzerlik Hesaplama)
Sınıflandırma işleminde vektörel olarak ifade edilen eğitim ile test dokümanları arasındaki benzerlik ve mesafe ölçülür. Bu ölçüm neticesinde benzerliği ifade eden bir değer bulunur. Bazı tekniklerde bu değerin yüksekliği (azalan), bazılarında ise düşüklüğü (artan) dokümanların benzerliğini ifade eder.

12 Sistem Yapısı (Benzerlik Hesaplama)
Kullanılan teknikler şunlardır; ↓ (Artan), ↑ (Azalan) Euclidean Distance ↓, Manhattan Distance ↓, Minkowski Distance ↓, Canberra Distance ↓, Bray Curtis Distance ↓, Cosine Similarity↑, Tanimoto Similarity ↑, Dice Coefficient ↑, Pearson Corr. Coefficient ↑, Inner Product ↑, Soergel ↓, Overlap ↑, Harmonic Mean ↑, Squared Chord ↓, Squared x2 ↓.

13 Sistem Yapısı (Sınıflandırma)
Metin sınıflandırma, önceden belirlenmiş kategorilere dokümanların atanmasıdır. Kullanılan benzerlik hesaplama ve sınıflandırma algoritmasına göre sınıflandırma işlemi gerçekleştirilir ve farklılık gösterebilir. Test dokümanı hangi eğitim dokümanına yakınsa (benzerse) o eğitim dokümanın bulunduğu sınıfa ait olduğu düşünülür. Test dokümanı ile bütün eğitim dokümanlarının benzerlikleri tek tek hesaplanır ve benzerlik değerine göre eğitim dokümanları artan veya azalan şekilde sıralanır.

14 Sistem Yapısı (Sınıflandırma Algoritması)
kNN, önceden belirlenmiş k değeri kullanılarak eğitim dokümanlarından sınıflandırılacak olan test dokümanına en çok benzeyen k eğitim dokümanı içerisindeki en fazla sayıda tekrar eden sınıfın test dokümanının sınıfına atanmasıdır. Çalışmada k komşu değeri 7 olarak kullanılmıştır.

15 Sistem Yapısı (Sınıflandırma Başarısı)
Sınıflandırma başarısı denklemde verilen şekilde hesaplanmıştır; başarı= doğru sınıflandırılan test dokümanı sayısı toplam test doküman sayısı ×100 Sınıflandırma süresi ise saniye cinsinden olup sınıflandırmanın başladığı ve bittiği an dikkate alınarak ölçülmüştür.

16 Değerlendirme (Genel)
5 benzerlik bulma tekniği ile %100 doğrulukta sınıflandırma gerçekleştirilmiştir; Yöntem 1: 2 teknikle Yöntem 2: 3 teknikle Her ne kadar Yöntem 2’de daha fazla sayıda %100 doğrulukta sınıflandırma gerçekleştirilse de özellik seçimi uygulanan Yöntem 1 ortalamasının daha yüksek olduğu görülmüştür.

17 Değerlendirme (Sınıflandırma Başarısı)
Sınıflandırma başarısı aynı olan teknikler; Euclidean, Manhattan, Minkowski, Squared Chord, Squared x2, Canberra, Inner Product, Harmonic Mean, Bray Curtis, Tanimoto, Dice, Cosinus, Pearson Correlation.

18 Değerlendirme (Sınıflandırma Başarısı)
Sınıflandırma başarısı farklı olan teknikler; Soergel, Overlap.

19 Değerlendirme (Sınıflandırma Süresi)
Sınıflandırma süresi olarak; En başarılı teknikler Canberra ve Harmonic Mean, En başarısız olan ise Minkowski olduğu görülmüştür.

20 Tablo 1. Yöntem1’e göre sınıflandırma sonuçları. Euclidean Manhattan
Euclidean Manhattan Minkowski Canberra Bray Curtis Cosine Tanimoto Dice Pearson Correlation Inner Product Soergel Overlap Harmonic Mean Squared Chord Squared x2 Sınıf Ortalaması Ekonomi 88 98 100 94.9 Spor 92 94 96 95.5 Sağlık 96.5 Eğitim 44 74 64 82.0 Yaşam 97.3 Ortalama 93.2 84.8 99.2 100.0 91.6 89.2 93.3 Tablo 1. Yöntem1’e göre sınıflandırma sonuçları. Euclidean Manhattan Minkowski Canberra Bray Curtis Cosine Tanimoto Dice Pearson Correlation Inner Product Soergel Overlap Harmonic Mean Squared Chord Squared x2 Sınıf Ortalaması Ekonomi 48 98 100 82 81.1 Spor 16 66 69.2 Sağlık 38 62 76.3 Eğitim 56 68 84.7 Yaşam 2 58 96 64.3 Ortalama 40.8 90.0 100.0 99.6 61.2 92.0 75.1 Tablo 2. Yöntem2’ye göre sınıflandırma sonuçları. Euclidean Manhattan Minkowski Canberra Bray Curtis Cosine Tanimoto Dice Pearson Correlation Inner Product Soergel Overlap Harmonic Mean Squared Chord Squared x2 Sınıf Ortalaması Yöntem1 39 37 41 42 40 45 Yöntem2 98 156 68 143 105 106 104 100 97 109 114 144 130 Ortalama 69 99 53 93 73 72 70 67 75 78 92 88 Tablo 3. İşlem süreleri (Saniye cinsinden).

21 Ekran Görüntüsü Ana Ekran Köşe Yazısı İşlemleri Madencilik İşlemleri

22 Köşe Yazısı İşlemleri

23 Madencilik İşlemleri

24 Uygulama Köşe Yazısı İşlemleri; Madencilik İşlemleri;
Link bilgilerini alma/kaydetme. İçerik alma/kaydetme. Kelime köklerine ayırma/stop words kaldırma. Köşe yazısı kelime dağılımı yapma. Köşe yazısı kategori atama. Madencilik İşlemleri; Özellik seçimi sonucu oluşan kelimeleri belirleme (sınıf özellik vektörü oluşturma). Doküman vektörlerini oluşturma. Tekil ve çoklu sınıflandırma. Test sonuçlarını görüntüleme.

25 Teşekkür ederiz.


"Mehmet Fatih KARACA Mustafa GÜNEL Akif Alkan TAŞTAN" indir ppt

Benzer bir sunumlar


Google Reklamları