Sunum yükleniyor. Lütfen bekleyiniz

Sunum yükleniyor. Lütfen bekleyiniz

Apache Tika Kutay Yıldırıcı

Benzer bir sunumlar


... konulu sunumlar: "Apache Tika Kutay Yıldırıcı"— Sunum transkripti:

1 Apache Tika Kutay Yıldırıcı
Web Search and Mining Apache Tika Kutay Yıldırıcı

2 Apache Tika Desteklediği formatlar, yapı İçerik ve dil tespiti Örnek

3 Apache Tika 2007'de Apache Lucene'in bir alt projesi olarak başlamıştır. Apache Tika, parser kütüphanelerini kullanarak çeşitli dökümanlardan text içeriğini ve dökümanın bilgisini tanımlayıp çıkartan bir toolkit'tir. Çeşitli dökümanlardan çıkarttığı veriyi XHTML SAX yapısında ve metadata şeklinde tutar. Bu SAX yapısı daha sonra contenthandler'lar aracılığı ile yorumlanıp gösterilebilir.

4 Formatlar HTML – Tagsoup kütüphanesi XML (XHTML, OOXML, ODF, ...)
Microsoft Office – Apache POI kütüphanesi Open Office PDF – ApachePDFBox kütüphanesi Epub RTF

5 Formatlar Sıkıştırma/paketlenmiş formatlar(.tar, .jar, .zip, .bzip2, .gz, .tgz)- Apache Commons Compress kütüphanesi Text dosyaları Ses dosyaları (.mp3, .aiff, .au, .midi, .wav)– javax.sound Resim formatları (.bmp, .gif, .png, .jpeg, .tiff) Flash Video (FLV) Java classları Mbox

6 Formatlar void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException;

7 İçerik ve Dil Tespiti MediaType detect(java.io.InputStream input, Metadata metadata) throws java.io.IOException Metadata.RESOURCE_NAME_KEY Metadata.CONTENT_TYPE

8 İçerik ve Dil Tespiti MIME tespiti - Freedesktop MIME-info
İçerik tipi tespiti Container sorunu Dil tanımı


"Apache Tika Kutay Yıldırıcı" indir ppt

Benzer bir sunumlar


Google Reklamları