Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

O ğ uzhan Ş EREFL İŞ AN Veri Madenciliği Web Uygulamaları PageRank Algoritması.

Benzer bir sunumlar


... konulu sunumlar: "O ğ uzhan Ş EREFL İŞ AN Veri Madenciliği Web Uygulamaları PageRank Algoritması."— Sunum transkripti:

1 O ğ uzhan Ş EREFL İŞ AN Veri Madenciliği Web Uygulamaları PageRank Algoritması

2 Plan SEO Tarihçe PageRank Örnek Dumping factor(d) Google Metodu Benzer algoritmalar Kaynaklar

3 SEO Google seminer postaları(spam) Search Engine Optimization (Optimizer) Arama motorlarından bir web sitesine yönlenen trafi ğ in; Hacminin Kalitesinin do ğ al ("organik" ya da "algoritmik") arama sonuçlarına dönük olarak ilgili web sitesi kapsamında iyile ş tirilmesi sürecinde yapılan optimizasyonlardır.

4 SEO Seo, arama motorlarının kullandıkları botlara uygulanan sevimli görünme çalı ş masıdır. Seo son yıllarda özellikle reklam sektöründe büyük önem kazanmı ş tır Önemli unsurlar; Domain Backlink IP Sayfa içi tasarımı ve kodlama yapısı

5 Tarihçe Pagerank (PR) : Google’ın sayfalara verdi ğ i sayısal de ğ er Bu de ğ eri belirlerken kullanılan algoritma da PageRank algortiması olarak isimlendirilir. Stanford’da master yapan iki ö ğ renci, Larry Page ve Sergey Brin tarafından geli ş tirilmi ş ve 1998 yılında Uluslar arası World Wide Web Konferansında (WWW7) duyurulmu ş tur. PageRank™ patenti Stanford’ a aittir. Google ı sonrasında kurdular.

6 PageRank Arama motorları internetteki sayfaların ne kadar ziyaretçi aldı ğ ını, içeriklerinin ne kadar kaliteli oldu ğ unu ve bizim o sayfaya hangi olasılıkla ula ş abilece ğ imizi ölçmek için her sayfaya bir de ğ er atar. Örn; Google, bir linki A sayfasından B sayfasına, B sayfası için A sayfasını kullanarak ba ğ lar. Aynı zamanda sayfanın hakkının yenmemesi için bazı içerik analizleri de yapar. Kendisini "önemli" yapan kriterlerde iyi yerlerde olan bir site önem sıralamasında di ğ er sitelerin üzerine çıkacaktır. Yani bir sitenin Google Arama sonuçları sıralamadaki yeri onun için önemli olan birçok kriterlerin birle ş imi sonucunda belirir.

7 PageRank Önemli, yüksek kalitesi olan siteler, Google'ın her arama yapıldı ğ ında hatırladı ğ ı, daha yüksek PageRank'a (Sayfa Sıralaması) sahip olurlar. Google aramalarınızda hem önemli hem de konu ile ilgili sayfaları bulmak için PageRank'i karma ş ık bir metin uyu ş ma tekni ğ i ile birle ş tirir

8 PageRank Dünyadaki tüm sitelerin pagerank de ğ erleri toplamı 1 sayısına e ş ittir. A sitesi için pagerank bulma formülü ş u ş ekildedir; PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn)) PR(A)= A sitesine ait pagerank degeri.Tüm siteler için ilk ba ş ta 1 kabul edilmektedir d = “damped down” faktörü denilen özel bir katsayı ve 0.85 kabul edilmekte.Pi sayısı gibi özel bir katsayı PR(Tn) = A sitesine link veren herhangi bir sitenin pagerank degeri C(Tn) = A sitesine link veren sitenin ba ş ka sitelere verdigi link sayı adeti

9 PageRank Sen bana link ver ben sana link vereyim mantı ğ ının incelemesi d= 0.85 PR(A) = (1 – d) + d*(PR(B)/C(Tn)) PR(B) = (1 – d) + d*(PR(A)/C(Tn)) Ancak, bana link veren site, çok fazla yere de link veriyorsa, formül gere ğ i verilen ba ğ lantının anlamı da kalmıyor. Ba ğ lantı veren sayfaların çok ziyaret edilmesi onların verdikleri ba ğ lantıların de ğ erini artırır; çünkü bu sayfalardan yola çıkarak di ğ er bir sayfaya ula ş ma olasılı ğ ımız daha yüksektir.

10 … Bu algoritma internet sayfalarının birbirleriyle olan ili ş kilerini ölçebildi ğ i gibi, aslında birbirleriyle bir ş ekilde ili ş kili olan herhangi bir veri yı ğ ınına da uygulanabilir. Örne ğ in; Google Araç Çubu ğ unu yüklediyseniz tarayıcınızın üst kısmında her sayfanın arasında de ğ i ş en bir de ğ ere sahip oldu ğ unu görebilirsiniz. Normal PR de ğ erini dönü ş türerek size gösterir.

11 Örnek Hiç ba ğ lantı verilmeyen sayfaların sayfa de ğ eri 0.15 olmaktadır. (Bilinmiyorsa ba ş langıç de ğ eri hep 1 kabul edilir) İ nternette A,B,C,D isimli 4 sayfamız olsun. PageRank’ in bu sayfalar arasında e ş it olarak da ğ ıldı ğ ını varsayarak her sayfaya 0.25 de ğ erini verelim. E ğ er bu sayfalardan B,C ve D sayfaları, A sayfasına ba ğ lantı verirse her biri A sayfasına 0.25’lik bir katı sa ğ lamı ş olur. O zaman bütün Sayfa de ğ eri A’ da toplanmı ş olur çünkü tüm ba ğ lantılar A’ ya gitmektedir.

12 PR(A)=PR(B)+PR(C)+PR(D) Toplam=0.75. O zaman ba ş ka ba ğ lantıların da var oldu ğ unu varsayarak devam edelim. B’nin C’ye, D’nin di ğ er tüm sayfalara ba ğ lantı vermesi durumunda ba ğ lantı de ğ erleri dı ş a verilen ba ğ lantılar arasında payla ş ılır. Yani B A’ya de ğ erinde bir oy vermi ş olur. D ise yalnızca Yani ilk de ğ erinin 1/3 ü kadar …

13 … PR(A)=[PR(B):2]+[PR(C):1]+[PR(D):3] PR(A)=0,125+0,25+0,083 PR(A)=0,458 Sadece D PR(B)=[PR(D):3] PR(B)=0,083 B, C ye PR(C)=[PR(B):2]+[PR(D):3] PR(C)=0,125+0,083 PR(C)=0,208 D’ ye referans veren yok, PR(D)=0

14 … Di ğ er bir deyi ş le, dı ş arıdan verilen ba ğ lantı de ğ erlerinin toplamını, bu de ğ erlerin normalle ş tirilmi ş haline bölerek toplam sayfa de ğ eri de ğ erini bulabiliriz

15 Damped down factor(d) PageRank teorisindeki “d” de ğ erini açıklamak için bir örnek verelim. İ nternette gezinen ve sayfalara rastgele tıklayan ve en sonunda tıklamaktan vazgeçen birini dü ş ünelim. Bu ki ş inin her adımda bir sonraki sayfaya da tıklama olasılı ğ ını veren “d”dir. Uzun hesaplamalar ve ara ş tırmalar sonunda 0.85 de ğ eri kabul edilmi ş tir. Azaltan katsayı (damping factor) 1 den çıkartılarak sayfa de ğ eri de ğ erine eklenir

16 …. İ nternette milyarlarca sayfa var ve arama motorları sayfaları tek tek geziyor. Sayı bu kadar yüksek olunca adım sayısı da ba ğ lantılı olarak milyonlara varıyor. E ğ er “d” katsayımız çok yüksekse ya da çok dü ş ükse, tek bir rakama ula ş mak yılları alabilir. Katsayıyı do ğ ru seçmek adım sayımızı kısaltmamıza yardımcı olur

17 Google Metodu Örne ğ imizde, 4 sayfanın da ba ş langıç de ğ erini 0.25 olarak almı ş tık. Peki, her sayfanın de ğ erinin ona ba ğ lantı veren sayfaların de ğ eriyle hesaplandı ğ ını dü ş ünürsek, henüz hiç sayfa de ğ eri hesaplamamı ş ken bir sayfanın di ğ er bir sayfaya verdi ğ i de ğ eri nasıl bulabiliriz?

18 Google Metodu PageRank, tekrar tekrar uygulanan bir algoritma ile hesaplanır ve internetteki sayfaların normalle ş tirilmi ş link matrisinin öz vektörüne (eigenvector) kar ş ılık gelir. Google, sayfaların son de ğ erlerini bilmeden de hesaplamaya ba ş layabilece ğ imizi söylüyor. Bu garip gibi gözükse de aynı formülü hesaplanan geçici de ğ erler üzerinden tekrar tekrar (iteratif) uygulayınca, her seferinde olması gereken de ğ ere bir adım daha yakla ş ıyoruz

19 Google Metodu Tek yapmamız gereken hesaplanan de ğ erleri saklamak ve bir sonraki adımda o de ğ erleri kullanarak yeni de ğ erleri bulmaktır. Bu i ş lemi de ğ erler artık belli bir sayıya yakla ş ana ve adımlar arası de ğ i ş me miktarları yeteri kadar azalana dek sürdürmemiz gerekir. Örn; Birbirine ba ğ lantı veren 2 sayfamız, A&B, olsun

20 Google Metodu Her sayfa dı ş arıya tek ba ğ lantı vermi ş tir. Yani C(A)=1 & C(B)= 1. PR’nin sonunda kaç olaca ğ ını bilmiyoruz ama tahminimize 1’den ba ş layalım. Sayı de ğ i ş medi. Tahminimiz do ğ ru olabilir. Bu sefer tahminimize 0 ile devam edip görelim

21 Google Metodu Bu ş ekilde devam ettikçe sayıların arttı ğ ını görüyoruz. Peki,sayılar gitgide artıyor ve biz 1.0’de sürekli sabit bir de ğ er vermeye ba ğ ladı ğ ını biliyoruz. 1’ i geçerse?

22 … PR(A)=40, PR(B)=40 Sayılar giderek azalıyor! Gördü ğ ünüz gibi hangi sayıdan ba ş larsak ba ş layalım sonuç tek bir de ğ ere gidiyor ve “normalle ş tirilmi ş olasılık da ğ ılımı” (normalized probability distribution, yani her sayfanın ortalama Page Rank’i) 1.0’e yakla ş ıyor

23 Benzer algoritmalar Örne ğ in, HITS algoritması (Hyperlink-Induced Topic Search, ba ğ lantı tabanlı konu arama), Jon Kleinberg tarafından geli ş tirilmi ş tir. Bu algoritma internet sayfalarını hem ba ğ lantılara bakarak hem de sayfa içeri ğ ine puan vererek sıralar. TrustRank analiz yöntemi ise Stanford Üniversitesi’nde Yahoo! ara ş tırmacıları tarafından geli ş tirilmi ş tir. Bu yöntem yararlı ve yararsız (spam) sayfaları birbirinden ayırmak için kullanılır. Ancak PageRank algoritması en yaygın kullanılan yöntem oldu ğ u için di ğ er yöntemler çok popüler de ğ ildir

24 … PageRank; iyi bir internet tasarımcısının iyi bilmesi ve sayfa tasarlarken göz önüne alması gereken bir kavramdır; çünkü sayfanın çok ziyaretçi alması buna ba ğ lıdır. Çok ziyaretçi=>PARA

25 Te ş ekkürler Kaynaklar Top 10 algorithms in data mining, Survey paper XindongWu · Vipin Kumar · J. Ross Quinlan · Joydeep Ghosh · Qiang Yang · Hiroshi Motoda · Geoffrey J. McLachlan · Angus Ng · Bing Liu · Philip S. Yu · Zhi-Hua Zhou · Michael Steinbach · David J. Hand · Dan Steinberg


"O ğ uzhan Ş EREFL İŞ AN Veri Madenciliği Web Uygulamaları PageRank Algoritması." indir ppt

Benzer bir sunumlar


Google Reklamları