TET Funktionalität

PDFlib TET 5 - Features

Das PDFlib Text and Image Extraction Toolkit (TET) wurde zur Extraktion von Textinhalten und Bildern aus PDF-Dokumenten entwickelt, kann aber auch zum Abfragen anderer Informationen aus PDF-Dokumenten verwendet werden.

PDFlib TET ist eine eigenständige Anwendung, die keine Fremdsoftware benötigt. Sie ist äußerst stabil und für den Multithreaded-Einsatz auf einem Server geeignet; siehe auch TET nutzen.

PDFlib TET bietet folgende leistungsstarke Funktionen für die Extraktion und verfügt sowohl über besondere Vorteile für die Textextraktion als auch Vorteile für die Bildextraktion.

Akzeptierte PDF-Eingabe

TET verarbeitet alle Varianten von PDF-Dokumenten:

  • Alle PDF-Versionen bis Acrobat DC einschließlich ISO 32000-1 und ISO 32000-2 (PDF 2.0)
  • Geschützte PDFs, die zum Öffnen kein Kennwort benötigen oder für die das Kennwort bekannt ist
  • Beschädigte PDF-Dokumente werden repariert

Alle Schriftsysteme der Welt

TET verarbeitet PDF-Dokumente in allen Schriftsystemen der Welt und implementiert die für manche Schriftsysteme benötigte spezielle Verarbeitung:

  • Lateinische, griechische und kyrillische Schriftsysteme
  • Arabisch und Hebräisch einschließlich logischer Neuanordnung von linksläufigem und bidirektionalem Text; Normalisierung der arabischen Präsentationsformen
  • Vereinfachtes und traditionelles Chinesisch, Japanisch und Koreanisch; horizontaler und vertikaler Text
  • Indische Schriftsysteme (ohne Umsortierung von Glyphen)
  • Unicode-Unterstützung für alle anderen Sprachen und Schriftsysteme

Unicode

Da Text in PDF normalerweise nicht in Unicode kodiert ist, wandelt PDFlib TET den Text in einem PDF-Dokument in Unicode um:

  • TET konvertiert alle Textinhalte nach Unicode, unabhängig von der im PDF-Dokument verwendeten Encoding-Methode.
  • Ligaturen und andere zusammengesetzte Glyphen werden als Sequenz der zugehörigen Unicode-Zeichen ausgegeben.
  • Glyphen ohne nutzbare Unicode-Information werden erkannt und auf ein konfigurierbares Ersatzzeichen abgebildet, um Fehlinterpretationen zu verhindern.
  • In TET sind verschiedene Workarounds für bestimmte Erzeugerprogramme implementiert, etwa für InDesign- und TeX-Dokumente sowie PDFs, die auf Mainframe-Systemen generiert wurden.

Inhaltsanalyse und Worterkennung

TET enthält patentierte Algorithmen zur Inhaltsanalyse:

  • Erkennung von Wortgrenzen zur korrekten Ausgabe von Wörtern
  • Getrennte Silben wieder zu Wörtern zusammensetzen
  • Entfernen von redundantem Text, zum Beispiel bei Schatteneffekten
    oder simulierter Fettschrift
  • Kombinieren von Absätzen gemäß der Lesereihenfolge
  • Korrekte Umsortierung von Text, der über die Seite verstreut ist

Seitenlayout, Tabellen- und Listenerkennung

TET analysiert die Seiteninhalte, um Textspalten zu erkennen. Tabellen werden erkannt - einschließlich Tabellenzellen, die sich über mehrere Zeilen oder Spalten erstrecken. Damit lässt sich die Reihenfolge des extrahierten Textes verbessern. Tabellenzeilen und der Inhalt einzelner Tabellenzellen werden als solche erkannt, ebenso nummerierte Listen oder solche mit Aufzählungszeichen.

Geometrie

TET liefert präzise geometrische Angaben zum Text, z. B. die Position auf der Seite, Glyphenbreiten und Textrichtung. Für die Textextraktion können Seitenbereiche gezielt einbezogen oder ausgeschlossen werden, zum Beispiel um Kopf- und Fußzeilen oder Seitenränder zu übergehen.

Textfarbe

TET analysiert Farbangaben in der PDF-Seitenbeschreibung und liefert für jede Glyphe genaue Farbangabe. Damit lassen sich z.B. Überschriften oder hervorgehobener Text identifizieren. Komplexe Farbräume wie Separation und DeviceN können optional als einfacher Alternativfarbraum extrahiert werden.

Extraktion von Rasterbildern

Bilder auf den Seiten einer PDF-Datei lassen sich als TIFF,- JPEG-, JBIG2- oder JPEG-2000-Dateien extrahieren. Zusätzlich werden genaue geometrische Informationen (Position, Größe und Winkel) für jedes Bild geliefert. Fragmentierte Bilder werden zu einem größeren Bild zusammengesetzt, um die Wiederverwertung zu vereinfachen. Die originalgetreue Darstellung ist dadurch garantiert, dass beim Extrahieren keine Neuberechnung der Auflösung (Downsampling) und keine Farbkonvertierung stattfindet. Damit erhält TET die höchstmögliche Bildqualität.

Ignorieren von Artefakten in Tagged PDF

In Tagged PDF und damit insbesondere PDF/UA können irrelevante Inhalte als Artefakt markiert sein (z.B. Kopf- und Fußzeilen). TET ignoriert optional Text- und Bildartefakte.

PDF-Analyse mit der pCOS-Schnittstelle

Die TET-Bibliothek enthält die pCOS-Schnittstelle zur Abfrage von Detailinformationen über ein PDF-Dokument, wie Dokument-Infofelder, Metadaten, Fontlisten, Seitengröße und vieles mehr.

Unicode-Nachbearbeitung

TET unterstützt Unicode-Nachbearbeitung:

  • Foldings erhalten, entfernen oder ersetzen Zeichen, um z.B. Interpunktionszeichen oder Zeichen aus einem irrelevanten Schriftsystem zu filtern.
  • Dekompositionen ersetzen ein Zeichen mit einer äquivalenten Folge von einem oder mehreren anderen Zeichen, z.B. Ersetzen von schmalen, breiten oder vertikalen japanischen Zeichen oder lateinischen hochgestellten Zeichen mit dem entsprechenden normalen Zeichen.
  • Text kann in alle Unicode-Normalformen konvertiert werden, z.B. um Texte in NFC-Form auszugeben, damit sie den Anforderungen einer Website oder Datenbank genügen.

Dokumentdomänen

PDF-Dokumente können außer den Seiteninhalten noch an anderen Stellen Text enthalten, die oft relevant sind. TET extrahiert Text aus allen Domänen:

  • Seiteninhalte
  • Standard- und benutzerdefinierte Dokument-Infofelder
  • XMP-Metadaten auf Dokument- und Bildebene
  • Lesezeichen und Kommentare (Anmerkungen)
  • Dateianhänge und PDF-Portfolios werden rekursiv verarbeitet
  • Formularfelder
  • Allgemeine PDF-Eigenschaften lassen sich abfragen, z.B. Seitenanzahl, Übereinstimmung mit Standards wie PDF/A, PDF/X usw.

 

 

XMP-Metadaten

TET unterstützt XMP-Metadaten auf mehrere Arten:

  • Mit der integrierten pCOS-Schnittstelle lassen sich XMP-Metadaten für das Dokument, einzelne Seiten, Bilder oder andere Teile des Dokuments programmatisch abfragen.
  • Die TETML-Ausgabe enthält die XMP-Daten des Dokuments und der Bilder.
  • Werden Bilder in den Formaten TIFF oder JPEG exportiert, übergibt TET auch XMP-Metadaten, sofern vorhanden.

TETML stellt PDF-Inhalte als XML dar

Optional kann TET die Inhalte einer PDF-Datei in einer XML-Variante namens TETML darstellen, mit der sich eine Vielzahl der im PDF enthaltenen Informationen in einer Form darstellen lässt, die für gebräuchliche XML-Werkzeuge zugänglich ist. TETML enthält den Text, optional ergänzt durch Fontinformationen und Positionsangaben, Details zu den Ressourcen (Fonts, Bilder, Farbräume) und Metadaten.

TETML umfasst auch interaktive Elemente wie Formularfelder, Anmerkungen, Lesezeichen usw. und kann sogar zur Analyse von JavaScript, Farbraumangaben, ICC-Profilen oder Druckausgabebedingungen verwendet werden.

TETML lässt sich mit XSLT-Stylesheets verarbeiten, um z.B. Filter anzuwenden oder TETML in andere Formate zu konvertieren. Die TET-Distribution enthält Beispiele für XSLT-Stylesheets zur Verarbeitung von TETML.

Der Ausschnitt zeigt TETML mit Details zu den Glyphen:

 

<Word>
<Text>PDFlib</Text>
<Box llx="111.48" lly="636.33" urx="161.14" ury="654.33">
<Glyph font="F1" size="18" x="111.48" y="636.33" width="9.65">P</Glyph>
<Glyph font="F1" size="18" x="121.12" y="636.33" width="11.88">D</Glyph>
<Glyph font="F1" size="18" x="133.00" y="636.33" width="8.33">F</Glyph>
<Glyph font="F1" size="18" x="141.33" y="636.33" width="4.88">l</Glyph>
<Glyph font="F1" size="18" x="146.21" y="636.33" width="4.88">i</Glyph>
<Glyph font="F1" size="18" x="151.08" y="636.33" width="10.06">b</Glyph>
</Box>
</Word>

 

TETML enthält Angaben zur Word- und Absatzgruppierung sowie zu Tabellen und Listen, Bildplatzierung und Anmerkungen sowie geometrische Angaben zu allen Elementen.

TET-Konnektoren

TET-Konnektoren verbinden TET mit anderer Software. Die folgenden TET-Konnektoren ermöglichen die Textextraktion aus PDF in den jeweiligen Umgebungen:

  • TET-Konnektor für die Suchmaschine Lucene
  • TET-Konnektor für den Solr Search Server
  • TET-Konnektor für das TIKA Toolkit
  • TET-Konnektor für Oracle Text
  • TET-Konnektor für MediaWiki
  • TET PDF IFilter für Windows ist als separates Produkt erhältlich. Es extrahiert Text und Metadaten aus PDF und macht sie Such- und Retrieval-Software unter Windows zugänglich.

TET Cookbook

Das TET Cookbook ist eine Sammlung von Programmierbeispielen, die den Einsatz von TET bei verschiedensten Aufgabenstellungen der Text- und Bildextraktion demonstrieren. Zahlreiche Cookbook-Beispiele zeigen auch, wie sich TET und PDFlib+PDI kombinieren lassen, um PDF-Dokumente zu verarbeiten und anzureichern, etwa durch Lesezeichen oder Links auf Basis des Textinhalts.