Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Web Search and Mining Apache Tika Kutay Yıldırıcı.

Benzer bir sunumlar


... konulu sunumlar: "Web Search and Mining Apache Tika Kutay Yıldırıcı."— Sunum transkripti:

1 Web Search and Mining Apache Tika Kutay Yıldırıcı

2 İçerik Apache Tika Desteklediği formatlar, yapı İçerik ve dil tespiti Örnek

3 Apache Tika 2007'de Apache Lucene'in bir alt projesi olarak başlamıştır. Apache Tika, parser kütüphanelerini kullanarak çeşitli dökümanlardan text içeriğini ve dökümanın bilgisini tanımlayıp çıkartan bir toolkit'tir. Çeşitli dökümanlardan çıkarttığı veriyi XHTML SAX yapısında ve metadata şeklinde tutar. Bu SAX yapısı daha sonra contenthandler'lar aracılığı ile yorumlanıp gösterilebilir.

4 Formatlar HTML – Tagsoup kütüphanesi XML (XHTML, OOXML, ODF,...) Microsoft Office – Apache POI kütüphanesi Open Office PDF – ApachePDFBox kütüphanesi Epub RTF

5 Formatlar Sıkıştırma/paketlenmiş formatlar(.tar,.jar,.zip,.bzip2,.gz,.tgz)- Apache Commons Compress kütüphanesi Text dosyaları Ses dosyaları (.mp3,.aiff,.au,.midi,.wav)– javax.sound Resim formatları (.bmp,.gif,.png,.jpeg,.tiff) Flash Video (FLV) Java classları Mbox

6 Formatlar void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException;

7 İçerik ve Dil Tespiti MediaType detect(java.io.InputStream input, Metadata metadata) throws java.io.IOException Metadata.RESOURCE_NAME_KEY Metadata.CONTENT_TYPE

8 İçerik ve Dil Tespiti MIME tespiti - Freedesktop MIME-info İçerik tipi tespiti Container sorunu Dil tanımı


"Web Search and Mining Apache Tika Kutay Yıldırıcı." indir ppt

Benzer bir sunumlar


Google Reklamları