TET Überblick

PDFlib TET 5 - Text and Image Extraction Toolkit

Was ist PDFlib TET?

PDFlib TET (Text and Image Extraction Toolkit) extrahiert zuverlässig Text, Bilder, Kommentare und Metadaten aus PDF-Dokumenten. TET stellt den Text eines PDF-Dokuments als Unicode-Strings zur Verfügung und liefert detaillierte Informationen zu Farbe, Glyphen und Fonts sowie die Position auf der Seite. Rasterbilder werden in gebräuchliche Bildformate extrahiert. Optional kann TET die PDF-Dokumente in ein XML-basiertes Format namens TETML konvertieren, das Text und Metadaten sowie Ressource-Informationen enthält. TET verfügt über ausgefeilte Algorithmen zur Inhaltsanalyse und kann damit Wortgrenzen erkennen, Text zu Spalten zusammenfassen, Tabellenstrukturen erkennen und redundanten Text entfernen.

Mit PDFlib TET können Sie:

  • PDF-Indexer für eine Suchmaschine implementieren
  • Texte und Bilder aus PDFs weiterverwerten
  • PDF-Inhalte in andere Formate konvertieren
  • PDFs abhängig vom Inhalt verarbeiten, z.B. anhand von Überschriften aufteilen (erfordert zusätzlich PDFlib+PDI)
  • Prüfen, ob eine bestimmte Stelle auf der Seite leer ist, z.B. um einen Barcode oder Stempel zu plazieren
  • TET enthält die pCOS-Schnittstelle zur Abfrage von Detailinformationen über ein PDF-Dokument, wie Dokumentinfofelder, Metadaten, Fontlisten, Seitengröße und vieles mehr (siehe pCOS-Produktbeschreibung und pCOS-Cookbook).

TET-Produktfamilie

Die TET-Produktfamilie besteht aus den folgenden Produkten:

  • Text and Image Extraction Toolkit (TET), das Kernprodukt zur Extraktion von Text, Bildern, Metadaten und anderen Elementen aus PDF.
  • TET PDF IFilter extrahiert Text und Metadaten aus PDF-Dokumenten, um sie Retrieval-Produkten unter Windows zugänglich zu machen. Es ist als separates Produkt verfügbar und eignet sich zur Anwendung mit Microsofts Retrieval-Produkten, wie Windows Search, Sharepoint- und SQL Server.
  • TET Plugin, ein kostenloses Plugin für Adobe Acrobat, um Text und Bilder aus PDF-Dokumenten zu extrahieren. Damit können Sie die hervorragende Text- und Bildextraktion von TET interaktiv testen.