Apache Tika Kutay Yıldırıcı Web Search and Mining Apache Tika Kutay Yıldırıcı
Apache Tika Desteklediği formatlar, yapı İçerik ve dil tespiti Örnek
Apache Tika 2007'de Apache Lucene'in bir alt projesi olarak başlamıştır. Apache Tika, parser kütüphanelerini kullanarak çeşitli dökümanlardan text içeriğini ve dökümanın bilgisini tanımlayıp çıkartan bir toolkit'tir. Çeşitli dökümanlardan çıkarttığı veriyi XHTML SAX yapısında ve metadata şeklinde tutar. Bu SAX yapısı daha sonra contenthandler'lar aracılığı ile yorumlanıp gösterilebilir.
Formatlar HTML – Tagsoup kütüphanesi XML (XHTML, OOXML, ODF, ...) Microsoft Office – Apache POI kütüphanesi Open Office PDF – ApachePDFBox kütüphanesi Epub RTF
Formatlar Sıkıştırma/paketlenmiş formatlar(.tar, .jar, .zip, .bzip2, .gz, .tgz)- Apache Commons Compress kütüphanesi Text dosyaları Ses dosyaları (.mp3, .aiff, .au, .midi, .wav)– javax.sound Resim formatları (.bmp, .gif, .png, .jpeg, .tiff) Flash Video (FLV) Java classları Mbox
Formatlar void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException;
İçerik ve Dil Tespiti MediaType detect(java.io.InputStream input, Metadata metadata) throws java.io.IOException Metadata.RESOURCE_NAME_KEY Metadata.CONTENT_TYPE
İçerik ve Dil Tespiti MIME tespiti - Freedesktop MIME-info İçerik tipi tespiti Container sorunu Dil tanımı