O ğ uzhan Ş EREFL İŞ AN Veri Madenciliği Web Uygulamaları PageRank Algoritması.

Slides:



Advertisements
Benzer bir sunumlar
İnternet hakkında bilgiler ve istatistikler
Advertisements

BİLGİSAYARDA KULLANILAN FAYDALI PROGRAMLAR
İnternet Tarayıcı Programlar
MUSTAFA UYSAL TÜRKÇE ÖĞRETMENLİĞİ(İ.Ö)
MUSTAFA YEŞİLADA
Bir Kuruluş Öyküsü.
VTYS Öğr. Gör. Engin DUTAR
HAZIRLAYAN: SEZGİN ZUKU
Web siteniz bu kutunun içinde…
Veri Madenciliğinde Kümeleme Slink Algoritması
 1 Ekim 2010 ile 1 Kasım 2010 tarihleri arasında İ stanbul Haydarpa ş a Numune E ğ itim ve Ara ş tırma Hastanesi Acil Servisine ba ş vuran toplam 985.
B İ LG İ S İ RAYIN İ CADI VE TAR İ HSEL GEL İŞİ M İ TEKNOLOJ İ VE TASARIM HAZIRLAYAN HÜLYA AYTEK İ N GÜNDÜZ-A 2.SINIF.
Anketten Foruma, Forumdan Bloga Sosyal Dengeler. •Kod Trendleri •İnternet Trendleri •Medya Trendleri.
4/3/2017
 Web-Log kelimesinden türetilen bloglar, yazarların herhangi bir konu hakkında hızlı ve kolay ş ekilde yorumlarını, ba ğ lantılarını yazılarını, resimlerini,
İNTERNET ADRESLERİ.
INTERNET ve AĞLAR.
İşletim Sistemi Temel Bilgiler
İŞLETME YÖNETİMİ PROGRAMI Gül Nur AKMAN
VERİ TABANI KULLANICI EĞİTİMİ
Bilgisayar ? BİL 110 Bilgisayara Giriş Öğrt. Gör. Dr. Ahmet Cengizhan Dirican Bilgisayar Müh. Böl.
NOT TUTMA TEKNİKLERİ Not tutma: Bir konuşmacıyı ya da dersi dinlerken, okurken, gözlem yaparken,düşünürken, dinleyiciye/öğrenciye sunulan mesajı yeniden.
 Önemli, yüksek kalitesi olan siteler, Google'ın her arama yapıldığında hatırladığı, daha yüksek PageRank'a (Sayfa Sıralaması) sahip olurlar. 
 Platform Ba ğ ımsız Ki ş isel Ö ğ renme Ortamlarının Tasarımı Ara ş.Gör. İ lker Kayaba ş (Anadolu Üniversitesi) Yrd.Doç.Dr. Mehmet Emin Mutlu (Anadolu.
Uzaktan Eğitim Kuramları
DynEd İngilizce Dil Eğitim Sistemi
SQL Komutlar 3 Sibel SOMYÜREK.
İNTERNET ADRESLERİ Ahmet SOYARSLAN biltek.info.
İNTERNET GÜVENLİĞİ İÇİN İNTERNET GÜVENLİK SEMİNERİ
Herhangi bir yerin, bilinen başka bir yere göre ne tarafta olduğunu belirtilmesine “yön” denilir. Yönleri Öğreniyorum Evimizin, okulumuzun ve mahallemizin.
 Internet tabanlı bir "Hukuk Portalı" projesi  Hukukun temel argümanlarına eri ş im.
Internet, birçok bilgisayar sisteminin birbirine ba ğ lı oldu ğ u, dünya çapında yaygın olan ve sürekli büyüyen bir ileti ş im a ğ ıdır. Internet, insanların.
Master in Advanced European and International Studies.
Internette iki çe ş it adresleme kullanılır. IP numarası herhangi bir bilgisayar internete ba ğ landı ğ ı anda, dünya üzerinde sadece ona ait olan bir.
İNTERNET TARAYICI (WEB BROWSER) PROGRAMLARI
Ekinözü Çok Programlı Lisesi Rehberlik ve Psikolojik Danışma Servisinin etkinlikleri, önleyici ve gelişimsel rehberlik hizmeti anlayışı çerçevesinde;
YALIN KILIÇ TÜREL Kasım-BOTE-4-ELAZI Ğ Gizlilik ve Doğruluk Ders: bilişim etiği.
WEB 2.0 ARAÇLARI TANITIM MUSTAFA EROĞLU
Arama Motorlarını Kullanmanın Püf Noktaları
- 1 Mehdi Afzali Azad İslam Üniversitesi, İran Türkiye’deki Kurumsal Arşivlerin Web Analizi Yaşar Tonta H.Ü. Bilgi ve Belge Yönetimi.
İNTERNETTE ARAMA MOTORLARI
Ağ Teknolojileri Dr. Kemal BIÇAKCI. 2 Amaç Aşağıdaki soruları cevaplayabilir miyiz? Aşağıdaki soruları cevaplayabilir miyiz? –Günümüz İnternetinde gözlemlediğimiz.
İNTERNET ADRESLERİ.
E-TİCARET NEDİR? E-TİCARET NEDİR? E-Ticaret internet ortamında insanların belirli sistemler üzerinde gerçek ve ya sanal ürünleri para karşılı ğ ında satın.
Ev adreslerimiz Adresler ne işe yarar?
BETÜL GÜTLEK TÜRKÇE Ö Ğ RETMENL İĞİ 2. SINIF WEB 2.0.
l Bir Tehdit Mi? Ar. Gör. Zeynep Erkan Atik.
NUR KOTA Ş TÜRKÇE Ö Ğ RETMENL İĞİ Sözcükte Anlam Konusunda Eğitsel İçerikli Siteler.
Çoklu Zekâ Kuramının Öğrenme-Öğretme Süreçlerine Yansıması.
Doğal Sayılarda Toplama Ve Çıkarma İşlemi
BACKLINK NEDIR? NASıL BACKLINK ALıRıZ? ÜCRETLI BACKLINK FAYDA VE ZARARLARı.
Lınk layer ProtoCol (ARP,INARP) YUNUS EMRE BAYAZIT.
TUANA BİLİŞİM GURURLA SUNAR inceleyin ve Gominisite Yeni Nesil Web Sitesidir Gominisite ile web sitenizi kendiniz yönetebilir ve güncelleyebilirsiniz.
GOOGLE NASIL İNDEKSLER. iNDEKSLEME İndeksleme, sitemizin içeriklerinin arama motorlarına, yani Google, Yahoo, Bing gibi sitelerin veri tabanlarına kayıt.
SEO Hizmeti. SEO Strateji Site İçi Optimizasyon Sitenin sayfaları ve içerikleri arama motorlarına göre optimize edilir. Araçları Hazırlama Sitenin SEO.
İNTERNET ADRESLERİ.
Yeni Medya Kültürü ve Sanal Kimlik
SEO (SEARCH ENGINE OPTIMIZATION).
E-posta Forum Sohbet Sesli Görüntülü Konferans
TrustRank, Dalgalanmalar, Google Penguin
İNTERNET ADRESLERİ.
GOOGLE TRENDS Fatih Akdaş 12-B ATL 51 Ders: Veri Tabanı.
Hazırlayan : Atahan Aybars ERDEM Fatih ALBAYRAK yılında Bursa’da kurulan Oyak Renault Otomobil Fabrikaları, yıllık 360 bin otomobil ve 450 bin motor.
E-posta Forum Sohbet Sesli Görüntülü Konferans
İNTERNET ADRESLERİ VE YAPISI
PINAR KARTALO Ğ LU.  Belirli sayıda i ş lemlerin tekrarlanması için kullanılan döngülerdir. for döngüleri ba ş langıç ve biti ş de ğ erleri arasında.
Çizge Algoritmaları.
B İ LG İ S İ RAYIN İ CADI VE TAR İ HSEL GEL İŞİ M İ TEKNOLOJ İ VE TASARIM HAZIRLAYANLAR MEN Ş URE DÜZGÜN S İ MGE ALP EL İ F NUR TURAN.
İ nternet’in Tarihi Geli ş imi.  Internet, teknik olarak, birçok bilgisayarın ve bilgisayar sistemlerinin birbirine ba ğ lı oldu ğ u, dünya çapında yaygın.
Sunum transkripti:

O ğ uzhan Ş EREFL İŞ AN Veri Madenciliği Web Uygulamaları PageRank Algoritması

Plan SEO Tarihçe PageRank Örnek Dumping factor(d) Google Metodu Benzer algoritmalar Kaynaklar

SEO Google seminer postaları(spam) Search Engine Optimization (Optimizer) Arama motorlarından bir web sitesine yönlenen trafi ğ in; Hacminin Kalitesinin do ğ al ("organik" ya da "algoritmik") arama sonuçlarına dönük olarak ilgili web sitesi kapsamında iyile ş tirilmesi sürecinde yapılan optimizasyonlardır.

SEO Seo, arama motorlarının kullandıkları botlara uygulanan sevimli görünme çalı ş masıdır. Seo son yıllarda özellikle reklam sektöründe büyük önem kazanmı ş tır Önemli unsurlar; Domain Backlink IP Sayfa içi tasarımı ve kodlama yapısı

Tarihçe Pagerank (PR) : Google’ın sayfalara verdi ğ i sayısal de ğ er Bu de ğ eri belirlerken kullanılan algoritma da PageRank algortiması olarak isimlendirilir. Stanford’da master yapan iki ö ğ renci, Larry Page ve Sergey Brin tarafından geli ş tirilmi ş ve 1998 yılında Uluslar arası World Wide Web Konferansında (WWW7) duyurulmu ş tur. PageRank™ patenti Stanford’ a aittir. Google ı sonrasında kurdular.

PageRank Arama motorları internetteki sayfaların ne kadar ziyaretçi aldı ğ ını, içeriklerinin ne kadar kaliteli oldu ğ unu ve bizim o sayfaya hangi olasılıkla ula ş abilece ğ imizi ölçmek için her sayfaya bir de ğ er atar. Örn; Google, bir linki A sayfasından B sayfasına, B sayfası için A sayfasını kullanarak ba ğ lar. Aynı zamanda sayfanın hakkının yenmemesi için bazı içerik analizleri de yapar. Kendisini "önemli" yapan kriterlerde iyi yerlerde olan bir site önem sıralamasında di ğ er sitelerin üzerine çıkacaktır. Yani bir sitenin Google Arama sonuçları sıralamadaki yeri onun için önemli olan birçok kriterlerin birle ş imi sonucunda belirir.

PageRank Önemli, yüksek kalitesi olan siteler, Google'ın her arama yapıldı ğ ında hatırladı ğ ı, daha yüksek PageRank'a (Sayfa Sıralaması) sahip olurlar. Google aramalarınızda hem önemli hem de konu ile ilgili sayfaları bulmak için PageRank'i karma ş ık bir metin uyu ş ma tekni ğ i ile birle ş tirir

PageRank Dünyadaki tüm sitelerin pagerank de ğ erleri toplamı 1 sayısına e ş ittir. A sitesi için pagerank bulma formülü ş u ş ekildedir; PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn)) PR(A)= A sitesine ait pagerank degeri.Tüm siteler için ilk ba ş ta 1 kabul edilmektedir d = “damped down” faktörü denilen özel bir katsayı ve 0.85 kabul edilmekte.Pi sayısı gibi özel bir katsayı PR(Tn) = A sitesine link veren herhangi bir sitenin pagerank degeri C(Tn) = A sitesine link veren sitenin ba ş ka sitelere verdigi link sayı adeti

PageRank Sen bana link ver ben sana link vereyim mantı ğ ının incelemesi d= 0.85 PR(A) = (1 – d) + d*(PR(B)/C(Tn)) PR(B) = (1 – d) + d*(PR(A)/C(Tn)) Ancak, bana link veren site, çok fazla yere de link veriyorsa, formül gere ğ i verilen ba ğ lantının anlamı da kalmıyor. Ba ğ lantı veren sayfaların çok ziyaret edilmesi onların verdikleri ba ğ lantıların de ğ erini artırır; çünkü bu sayfalardan yola çıkarak di ğ er bir sayfaya ula ş ma olasılı ğ ımız daha yüksektir.

… Bu algoritma internet sayfalarının birbirleriyle olan ili ş kilerini ölçebildi ğ i gibi, aslında birbirleriyle bir ş ekilde ili ş kili olan herhangi bir veri yı ğ ınına da uygulanabilir. Örne ğ in; Google Araç Çubu ğ unu yüklediyseniz tarayıcınızın üst kısmında her sayfanın arasında de ğ i ş en bir de ğ ere sahip oldu ğ unu görebilirsiniz. Normal PR de ğ erini dönü ş türerek size gösterir.

Örnek Hiç ba ğ lantı verilmeyen sayfaların sayfa de ğ eri 0.15 olmaktadır. (Bilinmiyorsa ba ş langıç de ğ eri hep 1 kabul edilir) İ nternette A,B,C,D isimli 4 sayfamız olsun. PageRank’ in bu sayfalar arasında e ş it olarak da ğ ıldı ğ ını varsayarak her sayfaya 0.25 de ğ erini verelim. E ğ er bu sayfalardan B,C ve D sayfaları, A sayfasına ba ğ lantı verirse her biri A sayfasına 0.25’lik bir katı sa ğ lamı ş olur. O zaman bütün Sayfa de ğ eri A’ da toplanmı ş olur çünkü tüm ba ğ lantılar A’ ya gitmektedir.

PR(A)=PR(B)+PR(C)+PR(D) Toplam=0.75. O zaman ba ş ka ba ğ lantıların da var oldu ğ unu varsayarak devam edelim. B’nin C’ye, D’nin di ğ er tüm sayfalara ba ğ lantı vermesi durumunda ba ğ lantı de ğ erleri dı ş a verilen ba ğ lantılar arasında payla ş ılır. Yani B A’ya de ğ erinde bir oy vermi ş olur. D ise yalnızca Yani ilk de ğ erinin 1/3 ü kadar …

… PR(A)=[PR(B):2]+[PR(C):1]+[PR(D):3] PR(A)=0,125+0,25+0,083 PR(A)=0,458 Sadece D PR(B)=[PR(D):3] PR(B)=0,083 B, C ye PR(C)=[PR(B):2]+[PR(D):3] PR(C)=0,125+0,083 PR(C)=0,208 D’ ye referans veren yok, PR(D)=0

… Di ğ er bir deyi ş le, dı ş arıdan verilen ba ğ lantı de ğ erlerinin toplamını, bu de ğ erlerin normalle ş tirilmi ş haline bölerek toplam sayfa de ğ eri de ğ erini bulabiliriz

Damped down factor(d) PageRank teorisindeki “d” de ğ erini açıklamak için bir örnek verelim. İ nternette gezinen ve sayfalara rastgele tıklayan ve en sonunda tıklamaktan vazgeçen birini dü ş ünelim. Bu ki ş inin her adımda bir sonraki sayfaya da tıklama olasılı ğ ını veren “d”dir. Uzun hesaplamalar ve ara ş tırmalar sonunda 0.85 de ğ eri kabul edilmi ş tir. Azaltan katsayı (damping factor) 1 den çıkartılarak sayfa de ğ eri de ğ erine eklenir

…. İ nternette milyarlarca sayfa var ve arama motorları sayfaları tek tek geziyor. Sayı bu kadar yüksek olunca adım sayısı da ba ğ lantılı olarak milyonlara varıyor. E ğ er “d” katsayımız çok yüksekse ya da çok dü ş ükse, tek bir rakama ula ş mak yılları alabilir. Katsayıyı do ğ ru seçmek adım sayımızı kısaltmamıza yardımcı olur

Google Metodu Örne ğ imizde, 4 sayfanın da ba ş langıç de ğ erini 0.25 olarak almı ş tık. Peki, her sayfanın de ğ erinin ona ba ğ lantı veren sayfaların de ğ eriyle hesaplandı ğ ını dü ş ünürsek, henüz hiç sayfa de ğ eri hesaplamamı ş ken bir sayfanın di ğ er bir sayfaya verdi ğ i de ğ eri nasıl bulabiliriz?

Google Metodu PageRank, tekrar tekrar uygulanan bir algoritma ile hesaplanır ve internetteki sayfaların normalle ş tirilmi ş link matrisinin öz vektörüne (eigenvector) kar ş ılık gelir. Google, sayfaların son de ğ erlerini bilmeden de hesaplamaya ba ş layabilece ğ imizi söylüyor. Bu garip gibi gözükse de aynı formülü hesaplanan geçici de ğ erler üzerinden tekrar tekrar (iteratif) uygulayınca, her seferinde olması gereken de ğ ere bir adım daha yakla ş ıyoruz

Google Metodu Tek yapmamız gereken hesaplanan de ğ erleri saklamak ve bir sonraki adımda o de ğ erleri kullanarak yeni de ğ erleri bulmaktır. Bu i ş lemi de ğ erler artık belli bir sayıya yakla ş ana ve adımlar arası de ğ i ş me miktarları yeteri kadar azalana dek sürdürmemiz gerekir. Örn; Birbirine ba ğ lantı veren 2 sayfamız, A&B, olsun

Google Metodu Her sayfa dı ş arıya tek ba ğ lantı vermi ş tir. Yani C(A)=1 & C(B)= 1. PR’nin sonunda kaç olaca ğ ını bilmiyoruz ama tahminimize 1’den ba ş layalım. Sayı de ğ i ş medi. Tahminimiz do ğ ru olabilir. Bu sefer tahminimize 0 ile devam edip görelim

Google Metodu Bu ş ekilde devam ettikçe sayıların arttı ğ ını görüyoruz. Peki,sayılar gitgide artıyor ve biz 1.0’de sürekli sabit bir de ğ er vermeye ba ğ ladı ğ ını biliyoruz. 1’ i geçerse?

… PR(A)=40, PR(B)=40 Sayılar giderek azalıyor! Gördü ğ ünüz gibi hangi sayıdan ba ş larsak ba ş layalım sonuç tek bir de ğ ere gidiyor ve “normalle ş tirilmi ş olasılık da ğ ılımı” (normalized probability distribution, yani her sayfanın ortalama Page Rank’i) 1.0’e yakla ş ıyor

Benzer algoritmalar Örne ğ in, HITS algoritması (Hyperlink-Induced Topic Search, ba ğ lantı tabanlı konu arama), Jon Kleinberg tarafından geli ş tirilmi ş tir. Bu algoritma internet sayfalarını hem ba ğ lantılara bakarak hem de sayfa içeri ğ ine puan vererek sıralar. TrustRank analiz yöntemi ise Stanford Üniversitesi’nde Yahoo! ara ş tırmacıları tarafından geli ş tirilmi ş tir. Bu yöntem yararlı ve yararsız (spam) sayfaları birbirinden ayırmak için kullanılır. Ancak PageRank algoritması en yaygın kullanılan yöntem oldu ğ u için di ğ er yöntemler çok popüler de ğ ildir

… PageRank; iyi bir internet tasarımcısının iyi bilmesi ve sayfa tasarlarken göz önüne alması gereken bir kavramdır; çünkü sayfanın çok ziyaretçi alması buna ba ğ lıdır. Çok ziyaretçi=>PARA

Te ş ekkürler Kaynaklar Top 10 algorithms in data mining, Survey paper XindongWu · Vipin Kumar · J. Ross Quinlan · Joydeep Ghosh · Qiang Yang · Hiroshi Motoda · Geoffrey J. McLachlan · Angus Ng · Bing Liu · Philip S. Yu · Zhi-Hua Zhou · Michael Steinbach · David J. Hand · Dan Steinberg