Die PDF/A-Standards

Die PDF/A-Archivierungsstandards

PDF/A ist auf die zuverlässige Langzeitarchivierung digitaler Dokumente mit Text, Rasterbildern und Vektorgrafik sowie den zugehörigen Metadaten ausgerichtet. Das in der ISO-Norm 19005 spezifizierte PDF/A-Format soll eine konsistente und stabile Teilmenge von PDF bieten, die sich auch nach langer Aufbewahrungsfrist noch eindeutig reproduzieren oder für den zuverlässigen Datenaustausch in Unternehmen und Behörden verwenden lässt. Dieses Whitepaper beschreibt wichtige technische Aspekte von PDF/A-1, PDF/A-2 und PDF/A-3.

PDF/A-1

PDF/A-1, der erste von mehreren Teilen des Standards, wurde im Jahr 2005 als ISO 19005-1 veröffentlicht. Er basiert auf PDF 1.4 (dem Dateiformat von Acrobat 5) und schreibt gewisse Einschränkungen bei der Verwendung von Farben, Fonts, Anmerkungen und anderen Elementen vor. Es gibt zwei Varianten von PDF/A-1:

  • Konformität zu Level B (PDF/A-1b; »b« wie in »basic«) gewährleistet, dass das Erscheinungsbild eines Dokuments langfristig erhalten werden kann. PDF/A-1b stellt sicher, dass das Dokument unverändert aussieht, wenn es in Zukunft verarbeitet wird.
  • Konformität zu Level A (PDF/A-1a; »a« wie in »accessible« (zugänglich)) basiert auf Level-B-Konformität, hinzu kommen aber wesentliche Eigenschaften der Variante »Tagged PDF«: Gefordert werden Strukturinformationen und zuverlässige Unicode-Textsemantik, um die logische Dokumentstruktur und natürliche Lesereihenfolge zu erhalten. Einfach ausgedrückt gewährleistet PDF/A-1a nicht nur, dass das Dokument bei späterer Verarbeitung unverändert aussieht, sondern auch, dass sein Inhalt (Semantik) zuverlässig interpretierbar und körperlich beeinträchtigten Benutzern zugänglich ist. Als wichtiges Beispiel seien hier Screenreader-Programme erwähnt, die blinden Benutzern »Tagged PDF« vorlesen können.

PDF/A-2

Im Jahr 2008 wurde PDF 1.7 (das Dateiformat von Acrobat 8) als ISO 32000-1 standardisiert. Um die zahlreichen neuen PDF-Funktionen in PDF/A-Workflows verfügbar zu machen, wurde im Jahr 2011 PDF/A-2 als neuer Teil des Standard unter der Bezeichnung ISO 19005-2 veröffentlicht.

PDF/A-2 basiert auf PDF 1.7 und enthält viele nützliche, in PDF/A-1 noch nicht verfügbare Neuerungen, wie zum Beispiel wichtige Aspekte des Dateiformats wie die JPEG-2000-Kompression, optionale Inhalte (Ebenen), PDF-Pakete und anderes. PDF/A-2-Dokumente können Dateianhänge enthalten, sofern diese selbst PDF/A-1- oder PDF/A-2-konform sind.

Ähnlich wie bei PDF/A-1 gibt es auch bei PDF/A-2 die Konformitätsstufen B and A. Als neue Variante wurde die Konformität zu Level U eingeführt. Level U liegt zwischen PDF/A-2a und PDF/A-2b: es werden zuverlässige Unicode-Textsemantik, aber keine Strukturinformationen verlangt. PDF/A-2u gewährleistet die eindeutige visuelle Reproduzierbarkeit einer Seite sowie die Möglichkeit, Text zu durchsuchen und zu extrahieren.

PDF/A-2 macht PDF/A-1 nicht obsolet; Benutzer müssen auch nicht auf die neuere Version migrieren - dies wäre wohl absurd bei einem Standard, der auf eine langfristige Erhaltung ausgerichtet ist.

PDF/A-3

Screenshot: Anzeige der Konformität zu PDF/A-3b in Acrobat

Im Jahr 2012 wurde PDF/A-3, ein weiterer Teil der Norm, als ISO 19005-3 veröffentlicht. PDF/A-3 unterstützt auch die Konformitätsstufen A, B und U. Es unterscheidet sich von PDF/A-2 in den folgenden Aspekten:

  • Während PDF/A-2 nur PDF/A-konforme Dateianhänge erlaubt, dürfen bei PDF/A-3 beliebige Dateitypen als Anlagen verwendet werden, um den Anforderungen verschiedener Benutzergruppen gerecht zu werden. PDF/A-Viewer müssen nichts Besonderes mit den angehängten Nicht-PDF/A-Dateien machen, außer sie zu extrahieren. Der PDF/A-Standard gewährleistet nicht, dass die Anhänge in irgendeiner Weise später verarbeitet werden können - er ermöglicht einfach ihre Einbettung in ein archivierbares Dokument.
  • Dateianhänge werden dem gesamten Dokument, einer Seite oder einem anderen Teil des Dokuments zugeordnet. Die Art der Beziehung zwischen der angehängten Datei und dem entsprechenden Teil des Dokuments muss explizit angegeben werden, z.B. Quelle, alternative oder ergänzende Daten. Für jeden Dateianhang muss seine Beziehung zu einem Teil des Dokuments mit dem Schlüssel AFRelationship angegeben werden. 

Typische PDF/A-3-Szenarien umfassen die Einbettung von Quelldateien für Textverarbeitungs- oder Tabellenkalkulationsprogramme in einem finalen PDF/A-Dokument oder die Aufnahme von maschinenlesbaren XML-Daten in ein für den menschlichen Gebrauch bestimmtes PDF, z.B. eine Rechnung. In der Tat sind die Rechnungsstandards ZUGFeRD und Factur-X eine wichtige Anwendung von PDF/A-3.

PDF/A-4

PDF/A-4 wurde im Jahr 2020 als ISO 19005-4 veröffentlicht. Da es auf PDF 2.0 basiert (2017 als ISO 32000-2 veröffentlicht und 2020 aktualisiert), kann es die Vorteile neuer PDF-Funktionen nutzen. Während PDF/A-2 und PDF/A-3 jeweils drei verschiedene Konformitätsniveaus umfassen, was bei den Anwendern zu Verwirrung führte, vereinfacht PDF/A-4 die Dinge, da PDF/A-4-Dokumente Tags enthalten können oder auch nicht. Im Gegensatz zu früheren Teilen des Standards ist für PDF/A-4-Dokumente mit Tags keine eigene Konformitätsstufe erforderlich, so dass die bisherigen A/B/U-Konformitätsstufen wegfallen. Ebenso können PDF/A-4-Dokumente Dateianhänge enthalten oder nicht. Die angehängten Dateien müssen mit PDF/A-1, PDF/A-2 oder PDF/A-4 konform sein.

Während die A/B/U-Konformitätsstufen abgeschafft werden, führt PDF/A-4 zwei neue Konformitätsstufen ein:

  • PDF/A-4f erlaubt Anhänge von Nicht-PDF/A-Dateien, ähnlich wie PDF/A-3 PDF/A-2 erweitert.

  • PDF/A-4e (»e« wie in »engineering«) richtet sich an den Engineering-Bereich. Es ist als Nachfolger des PDF/E-1-Standards ISO 24517-1 vorgesehen, der auf PDF 1.6 basiert. Der ursprüngliche Plan, eine neue Variante PDF/E-2 zu definieren, wurde verworfen. Stattdessen ergänzt PDF/A-4e das Basisformat PDF/A-4 um RichMedia-Anmerkungen für 3D-Inhalte im U3D- oder PRC-Format.

In Bezug auf Strukturinformationen und Barrierefreiheit verlangen PDF/A-1a/2a/3a nur das bloße Vorhandensein von Tags, gehen aber nicht näher auf die Art und Verwendung von PDF-Tags ein. PDF/A-4 geht gleichzeitig einen Schritt zurück und einen Schritt vorwärts: Während PDF/A hinsichtlich des Vorhandenseins von Tags agnostisch ist, verweist es auf die Vorteile von Tagged PDF hinsichtlich der Wiederverwendung von Inhalten und der Barrierefreiheit. Bezüglich der Einzelheiten verweist der Standard auf den PDF/UA-Standard ISO 14289, in dem viele Details des Taggings behandelt werden. Außerdem übernimmt PDF/A-4 das strenge Regime von PDF-Tags, das Teil der zugrunde liegenden PDF 2.0-Spezifikation ist.

Welchen Standard verwenden?

Genauso wie PDF/A-2 nicht PDF/A-1 ersetzt, ersetzt PDF/A-3 auch nicht PDF/A-2 und PDF/A-4 nicht PDF/A-3. Jeder Teil des PDF/A-Standards kann nach Bedarf für die Langzeitarchivierung verwendet werden. Man muss lediglich auf bestimmte PDF-Funktionen verzichten, solange man mit einem älteren Teil des PDF/A-Standards arbeitet. Einfache Office-Dokumente ohne transparente Grafiken lassen sich zum Beispiel noch mit PDF/A-1 realisieren. Wenn Sie beliebige Dateianhänge benötigen, verwenden Sie PDF/A-3 oder PDF/A-4f. Wenn Sie RichMedia- oder 3D-Inhalte benötigen, verwenden Sie PDF/A-4e.

PDF Association und PDF/A Competence Center

Mitgliederlogo PDF Association

PDFlib GmbH ist Gründungsmitglied der PDF Association. Die PDF Association wurde 2006 als PDF/A Competence Center als gemeinnütziger Verein gegründet und wuchs seither weltweit auf mehr als 150 Mitglieder aus der PDF-Industrie. Ihr Ziel ist die Einführung und Umsetzung internationaler Standards für die PDF-Technologie.

  • Entwickler nutzen die PDF Association, um Kenntnisse und Erfahrungen mit der PDF-Technologie auszutauschen.
  • Entscheider nutzen die PDF Association, um Funktionen und Möglichkeiten des PDF Standards sowie seiner Sub-Standards im ECM und anderen Anwendungen für digitale Dokumente kennenzulernen.
  • Anwender erhalten Vorteile durch erhöhte Verlässlichkeit, Qualität und Funktionalität sowie Kompatibilität beim Einsatz digitaler Dokumente.

PDF/A-Validierung

Unter PDF/A-Validierung versteht man die Prüfung, ob ein bestimmtes Dokument die Anforderungen eines bestimmten Teils des PDF/A-Standards erfüllt. Validierung wird schon lange als Teil von Acrobat Preflight sowie in Produkten von Drittherstellern angeboten. Um ein nützliches Werkzeug für die PDF-Anwendergemeinde anzubieten, haben die Open Preservation Foundation (OPF), die PDF Association und die Digital Preservation Coalition (DPC) zur Entwicklung eines frei verfügbaren und zuverlässigen PDF/A-Validierers mit dem Namen veraPDF kooperiert. Die Entwicklung wurde vom Preforma-Projekt der Europäischen Kommission finanziert und von den in der PDF Association organisierten PDF-Softwareentwicklern unterstützt.

Sollten Sie Zweifel bezüglich der Standardkonformität eines bestimmten PDF/A-Dokuments haben, empfehlen wir die Überprüfung mit veraPDF.