Neu in TET

PDFlib TET 5 - Neue Features

Die erste Version von PDFlib TET wurde 2002 veröffentlicht. Seither ist TET für Tausende von Kunden aus aller Welt die Lösung für die Extraktion von PDF-Inhalten. Mit der Hauptversion TET 5 haben wir unser solides Extraktionswerkzeug weiter verbessert. Neben vielen kleineren Verbesserungen bei der PDF-Verarbeitung bieten wir viele signifikante funktionale Erweiterungen, vor allem bei der Bildextraktion, der Abfrage von Farbinformationen sowie TETML-Inhalten.

Was ist neu in PDFlib TET 5.1?

Folgende Features sind neu oder wurden für TET 5.1 erheblich verbessert:

  • Aufzählungen und nummerierte Listen werden in TETML identifiziert und ausgegeben
  • Reparaturmodus für beschädigte Eingabedokumente mit Querverweis-Streams
  • Verbesserte Workarounds für nicht konforme Eingabedokumente
  • Verbesserte Leistung für deaktivierte Bild-, Farb- und Vektor-Engines sowie für Dokumente ohne Ebenen
  • Reduzierter Speicherbedarf
  • Zahlreiche Fehlerbehebungen
  • Aktualisierte Sprachbindungen

Was ist neu in PDFlib TET 5.0?

Folgende Features sind neu oder wurden für TET 5.0 erheblich verbessert:

Extrahieren von Text:

  • Abfrage von Füll- und Linienfarbe des Textes
  • Verbesserte Layout-Erkennung
  • Berücksichtigung von Vektorgrafiken bei der Erkennung von Seiten- und Tabellen-Layout
  • Unterstützung vertikaler Fontmetrik für CJK-Text

 Extrahieren von Rasterbildern:

  • Deutlich verbessertes Zusammensetzen fragmentierter Bilder, z.B. von rotierten Bildern
  • Verbesserte Bildverarbeitung für viele Spezialfälle und seltene PDF-Bildvarianten
  • Extraktion von Bildmasken und Transparenzmasken
  • Zusammensetzen und Konvertieren von JPEG-2000-komprimierten Bildern
  • Beibehalten von Schmuckfarbe in extrahierten TIFF-Bildern
  • Beschränkung der Bildextraktion auf einen vom Benutzer ausgewählten Bereich
  • Berücksichtigung von XMP-Metadaten für Bilder, die von InDesign nicht an den eigentlich vorgesehenen Stellen in PDF gespeichert werden

 Seitenverarbeitung:

  • Wahlweises Ignorieren von Artefakten (irrelevanten Inhalten) in Tagged PDF
  • Berücksichtigung von Ebenen (optionalen Inhalten), um die Extraktion von unsichtbaren Inhalten zu vermeiden
  • Berücksichtigung von Beschneidungspfaden, um die Extraktion von unsichtbaren Inhalten zu vermeiden
  • Prüfen, ob ein Bereich auf der Seite leer ist oder Text-, Bild- bzw. Vektorgrafik enthält

 TETML:

  • TETML enthält Füll- und Linienfarbe der Glyphen
  • TETML enthält Informationen über interaktive Elemente wie Anmerkungen, Formularfelder, Lesezeichen, Aktionen, JavaScript, Unterschriften usw.
  • TETML enthält Details zu Farbraum und ICC-Profilen
  • TETML enthält Informationen über Ebenen und Seiten-Labels

Abfragen von Informationen aus PDF-Dokumenten:

  • pCOS-Pseudo-Objekte für ICC-Profildetails und Bildmaskierungseigenschaften
  • pCOS-Pseudo-Objekte für Formularfelder

Weitere Verbesserungen:

  • Aktualisierte TET-Sprachbindungen, Programmierbeispiele und TET-Konnektoren
  • Zusätzliche Prüfungen und Heuristiken für beschädigte und nicht-konforme PDF-Eingabe
  • Neue Optionen für verbesserte Steuerung der PDF-Verarbeitung
  • Zahlreiche Verbesserungen in bestehenden TET-Features