Türkçe Haber Yazılarında Sosyal Ağların İncelenmesi Çağrı Toraman, Fazlı Can Bilkent Üniversitesi Bilgisayar Mühendisliği, Bilgi Erişim Grubu {ctoraman, canf}@cs.bilkent.edu.tr Akademik Bilişim ’15, Eskişehir
Bilkent Haber Portalı
(Philippe Wojazer/Reuters)
1) Varlık ismi tanımlama (Named entity recognition) Sosyal ağ oluşturmak 1) Varlık ismi tanımlama (Named entity recognition) 2) İlişkilerin belirlenmesi (Ortaklık bilgisi-tabanlı Olasılık kuramı-tabanlı yöntemler)
Sosyal ağ oluşturmak / Varlık ismi tanımlama 1) Küçük ve Yazıcı’nın yöntemi* 12.800 sözlük kaynağı ~260 patern Morfolojik analiz 2) Varlık ismi çözümlemesi (manuel) George Bush ? Gazi Mustafa Kemal = Atatürk * Küçük, D., Yazıcı, A., "Exploiting information extraction techniques for automatic semantic video indexing with an application to Turkish news videos", Knowledge-Based Systems, 24(6): 844-857, (2011)
Sosyal ağ oluşturmak / İlişkilerin belirlenmesi Ortaklık bilgisi-tabanlı yöntem Olasılık kuramı-tabanlı yöntem
Sosyal ağ oluşturmak / İlişkilerin belirlenmesi Ortaklık bilgisi-tabanlı yöntem c c = ortak bulundukları haber sayısı
Sosyal ağ oluşturmak / İlişkilerin belirlenmesi Olasılık kuramı-tabanlı yöntem Cover coefficient algoritması* Eşik değeri = 0.2 ? * Can, F., Özkarahan, E. A., "Concepts and effectiveness of the cover coefficient-based clustering methodology for text databases", ACM Transactions on Database Systems, 15(4): 483-517, (1990).
1) Varlık ismi tanımlama (Named entity recognition) Sosyal ağ oluşturmak 1) Varlık ismi tanımlama (Named entity recognition) 2) İlişkilerin belirlenmesi (Ortaklık bilgisi-tabanlı Olasılık kuramı-tabanlı yöntemler)
Temizlik işlemleri (tekrar edenler, gizli reklam vb.) Haber koleksiyonu 20/12/2013 - 11/03/2014 www.sozcu.com.tr Temizlik işlemleri (tekrar edenler, gizli reklam vb.) Bilkent Haber Portalı
Deney sonuçları / Varlık ismi tanımlama
Deney sonuçları / Türkçe sosyal ağlar Şekil 3. Sozcu2014'te en sık görülen 10 insan için ortaklık bilgisi-tabanlı yöntemle oluşan sosyal ağ.
Deney sonuçları / Türkçe sosyal ağlar Şekil 4. Sozcu2014'te en sık görülen 10 insan için olasılık kuramı-tabanlı yöntemle oluşan sosyal ağ. Eşik değeri 0.01'in altında kalan çizgiler silinmiştir.
Deney sonuçları / Türkçe sosyal ağlar Şekil 4. Sozcu2014'te en sık görülen 10 insan için olasılık kuramı-tabanlı yöntemle oluşan sosyal ağ. Eşik değeri 0.05'in altında kalan çizgiler silinmiştir.
Deney sonuçları / Türkçe sosyal ağlar Şekil 4. Sozcu2014'te en sık görülen 100 insan için olasılık kuramı-tabanlı yöntemle oluşan sosyal ağ. Eşik değeri 0.05'in altında kalan çizgiler silinmiştir.
Sonuç Türkçe haberlerde sosyal ağlar Varlık ismi tanımlama Varlık ismi çözümleme Aktörler arası ilişkilerin belirlenmesi (ortaklık bilgisi ve olasılık kuramı-tabanlı) Yeni haber koleksiyonunda analiz: Doğru parametre ile olasılık kuramı-tabanlı yöntem, Ayrıntılı deneyler yapılmalı
İlginiz için teşekkürler.. Çağrı Toraman ctoraman@cs.bilkent.edu.tr 03.02.2015 – AB’15 - Eskişehir