PDF/A

PDF/A ist ein Dateiformat zur Langzeitarchivierung digitaler Dokumente, das von der International Organization for Standardization (ISO) als Teilmenge des Portable Document Format (PDF) genormt wurde. Die Norm legt fest, wie die Elemente der zugrundeliegenden PDF-Versionen im Hinblick auf die Langzeitarchivierung verwendet werden müssen. Dabei gibt es sowohl zwingend vorgeschriebene als auch nicht zugelassene Bestandteile.

PDF/A-1

Die Norm spezifiziert zwei Konformitätsebenen:

  • PDF/A-1b – Level B (Basic) conformance: eindeutige visuelle Reproduzierbarkeit
  • PDF/A-1a – Level A (Accessible) conformance: sowohl eindeutige visuelle Reproduzierbarkeit als auch Abbildbarkeit von Text nach Unicode und inhaltliche Strukturierung des Dokuments, so dass es im Sinne der Barrierefreiheit von einem Screenreader vorgelesen werden kann.
  • PDF/A-1 basiert auf PDF 1.4.
  • Eigenschaften von PDF/A-1b:
    • Nicht erlaubt sind Referenzen auf Ressourcen, die nicht in der Datei enthalten sind. Alle verwendeten Bilder und Schriftarten (die Begrenzung auf die verwendeten Zeichen ist erlaubt) müssen in der PDF-Datei enthalten sein.
    • Für eine eindeutige Farbdarstellung müssen Farben ausreichend definiert sein. Hier kommen Quellprofile oder ein „Output Intent“ (Beschreibung der typischen Art der Ausgabe mittels eines ICC-Profils, wie beispielsweise sRGB für bildschirmorientierte Dokumente) zur Anwendung.
    • Transparente Elemente sind nicht erlaubt.
    • Die Verwendung von JavaScript oder von Aktionen sind nicht zugelassen. Audio- oder Videodaten dürfen nicht eingebettet sein.
    • Verschlüsselungen und damit teilweises Sperren von Funktionen der Datei wie Drucken und Daten herauskopieren sind untersagt.
    • Die Verwendung patentrechtlich geschützter Komponenten, auch die Komprimierung mittels Lempel-Ziv-Welch-Algorithmus (LZW) ist untersagt. Obgleich der LZW-Kompressionsalgorithmus seit 2004 keiner Patentierung unterliegt, wurde durch die ISO dessen Verwendung ausgeschlossen. Mit ZIP steht eine ebenbürtige patentfreie Kompression zur Verfügung.
    • Die Einbettung digitaler Signaturen wird unterstützt.
    • Die Datei muss in den Metadaten im XMP-Format als PDF/A-1-konform gekennzeichnet sein.
    • Wenn weitere Metadaten eingefügt werden, muss das ebenfalls im XMP-Format als XMP-Erweiterungsschema erfolgen.
  • Eigenschaften von PDF/A-1a, zusätzlich zu den Eigenschaften von PDF/A-1b:
    • Der Text muss nach Unicode abgebildet werden können.
    • Die inhaltliche Struktur der PDF/A-Datei muss mittels tagged PDF angegeben sein.

PDF/A-2

Die Norm definiert drei Konformitätsebenen:[1]

  • PDF/A-2b – Level B (Basic) conformance: Mindestanforderung an eine PDF/A-2-Datei, garantiert das richtige Erscheinungsbild des Dokuments für eine Langzeitarchivierung.
  • PDF/A-2u – Level U (Unicode-Textsemantik) conformance: Wie 2b, plus: der gesamte Text ist in Unicode abgebildet, sodass der gesamte Text indexiert und dargestellt werden kann.[2][3]
  • PDF/A-2a – Level A (Accessible) conformance: Realisiert vollständig alle Anforderungen der ISO 19005-2, insbesondere alle strukturellen und semantischen Eigenschaften.
  • Wesentliche Erweiterungen gegenüber PDF/A-1:
    • Basiert auf PDF 1.7 (ISO 32000-1)
    • JPEG-2000-Kompression erlaubt[4]
    • Transparente Elemente sind erlaubt
    • Ebenen erlaubt
    • OpenType-Schriftarten können eingebettet werden
    • Digitale Signaturen in Übereinstimmung mit den PAdES (PDF Advanced Electronic Signatures, ETSI TS 102 778)
    • Container: PDF/A-1-Dateien können in PDF/A-2-Dateien eingebettet werden

PDF/A-3

Die Spezifikation von PDF/A-3 wurde am 17. Oktober 2012 veröffentlicht.[5] Eine wesentliche Erweiterung gegenüber PDF/A-2 stellen die Container dar: Beliebige Dateitypen können in PDF/A-3 eingebettet werden.[6] Einem PDF/A-3-Dokument können auf diesem Wege zum Beispiel die Ursprungsdaten beigefügt werden, mit denen es erstellt wurde. Der Standard regelt die Archivtauglichkeit von eingebetteten Dateien, die nicht selbst PDF/A-konform sind, nicht.

PDF/A-3 eröffnet Möglichkeiten für Elektronische Rechnungen, da nun eine Datei maschinenlesbare Daten im XML-Format enthalten kann als auch die archivtaugliche PDF-Ausgabe der Rechnung. Im Juni 2014 wurde der ZUGFeRD-Standard veröffentlicht, der auf PDF/A-3 aufsetzt.[7]

PDF/A-4

Im November 2020 wurde PDF/A-4 (oder PDF/A-NEXT) veröffentlicht; es basiert auf PDF 2.0. Während es bei den anderen PDF/A-Versionen drei Varianten gibt, existieren bei PDF/A-4 nur zwei. Statt der bisherigen Varianten a/b/u gelten zwei neue Varianten:

  • PDF/A-4f lässt auch Dateianhänge zu, die nicht PDF/A entsprechen.
  • PDF/A-4e für den Engineering-Bereich erlaubt die Einbindung von 3D-Inhalten in den Formaten U3D oder PRC.[8]

Standards

ISO 19005 – Document management – Electronic document file format for long-term preservation (PDF/A)
Untertitelveröffentlicht amStandardberuht aufRef.
PDF/A-1Part 1: Use of PDF 1.42005-09-28ISO 19005-1PDF 1.4 (Adobe Systems, PDF Reference, third edition)[9]
PDF/A-2Part 2: Use of ISO 32000-12011-06-20ISO 19005-2PDF 1.7 (ISO 32000-1:2008)[10]
PDF/A-3Part 3: Use of ISO 32000-1 with support for embedded files2012-10-15ISO 19005-3PDF 1.7 (ISO 32000-1:2008)[11]
PDF/A-4Part 4: Use of ISO 32000-22020-11ISO 19005-4PDF 2.0 (ISO 32000-2:2020)[12]

Gültigkeit

PDF/A-1 bleibt weiterhin in Kraft. PDF/A-1-konforme Dateien genügen auch den Anforderungen des entsprechenden PDF/A-2-Konformitätslevels. Wo PDF/A-1-Funktionen ausreichen, besteht kein zwingender Grund, auf PDF/A-2 zu wechseln.

Überprüfung

Eine Validierung von gültigem PDF/A ist über entsprechende Prüfwerkzeuge möglich (siehe Weblinks). Diese Software-Tools sind sich jedoch häufig uneinig darüber, ob eine erzeugte Datei entsprechend PDF/A gültig ist. Der Grund dafür ist, dass die zugrundeliegenden Normen unterschiedlich interpretiert werden.[13]

Archivische Wertung/Empfehlung

Das Bundesarchiv empfiehlt (Stand März 2021) für die dauerhaften Aufbewahrung von digitalen Unterlagen in nachstehender Rangfolge die PDF/A-Versionen und deren Konformitätsebenen: PDF/A-2a, PDF/A-2u, PDF/A-2b. PDF/A-1a, PDF/A-1b. Eine Konvertierung zu PDF/A-3 wird nicht empfohlen.[14]

Kritik

Bei der Konvertierung von Dokumenten nach PDF/A ist eine visuelle Prüfung erforderlich, weil dadurch häufig Fehler in der visuellen Darstellung verursacht werden. In einer Stichprobe enthielten 11 Prozent des erzeugten PDF/A-1b-Dokuments visuelle Artefakte. Zu diesen Reproduzierbarkeitsfehlern gehörten Probleme mit Vektorgrafiken (transparente Objekte), Verlust von Links, Verlust anderer Dokumentinhalte (unlesbare Zeichen, fehlender Text, fehlender Dokumentteil), aktualisierte Felder (die die Zeit oder den Ordner der Konvertierung widerspiegeln) und Rechtschreibfehler.[13] Archive konvertieren daher in der Regel nicht selbst nach PDF/A. Stattdessen bitten einige Archive ihre Benutzer, ein PDF/A-Dokument zur Verfügung zu stellen. Typische Computer-Setups bieten mehrere Methoden zur Konvertierung von Dokumenten nach PDF/A mit unterschiedlichen Vor- und Nachteilen.[15]

Siehe auch

Literatur

  • PDF/A kompakt – Digitale Langzeitarchivierung mit PDF (ISBN 978-3-9811648-0-0)
  • ISO 19005-1:2005 – Document management – Electronic document file format for long-term preservation – Part 1: Use of PDF 1.4 (PDF/A-1), Norm im Iso-Store
  • ISO 19005-2:2011 – Document management – Electronic document file format for long-term preservation – Part 2: Use of ISO 32000-1 (PDF/A-2), Norm im Iso-Store

Weblinks

  • verapdf – Ein Open-Source-PDF/A-Validierungstool
  • PDF Association – Verband, in dem auch das PDF/A Competence Center aktiv ist

Einzelnachweise

  1. Nele Zymek: PDF/A – Das Format der Zukunft – Teil 2: PDF/A-2. In: webPDF Blog. Abgerufen am 19. Juli 2022 (deutsch).
  2. PDF/A-2u, PDF for Long-term Preservation, Use of ISO 32000-1 (PDF 1.7), Level U Conformance. 28. Februar 2019, abgerufen am 19. Juli 2022.
  3. Die PDF/A-Archivierungsstandards. PDFlib GmbH, abgerufen am 12. Januar 2019.
  4. PDF/A-2u, PDF for Long-term Preservation, Use of ISO 32000-1 (PDF 1.7), Level U Conformance. 28. Februar 2019, abgerufen am 19. Juli 2022.
  5. pdfa.org: ISO hat PDF/A-3 veröffentlicht (Memento vom 14. Juli 2014 im Internet Archive)
  6. pdfa.org: PDF/A inklusive der Normteile 1 bis 3 (Memento vom 12. Mai 2014 im Internet Archive)
  7. ZUGFeRD 1.0-Standard: Elektronische Rechnung auf den Vormarsch. Abgerufen am 19. Juli 2022.
  8. PDFlib: Die PDF/A-Standards. Abgerufen am 6. April 2021 (englisch).
  9. ISO 19005-1:2005. In: ISO. Abgerufen am 27. Juli 2016 (englisch).
  10. ISO 19005-2:2011. In: ISO. Abgerufen am 27. Juli 2016 (englisch).
  11. ISO 19005-3:2012. In: ISO. Abgerufen am 27. Juli 2016 (englisch).
  12. ISO 19005-4:2020. In: ISO. Abgerufen am 4. Februar 2021 (englisch).
  13. a b Roland Erwin Suri, Mohamed El-Saad: Lost in migration: document quality for batch conversion to PDF/A. In: Library Hi Tech. 6. Juni 2018, ISSN 0737-8831, S. LHT–10–2017–0220, doi:10.1108/LHT-10-2017-0220 (emerald.com [abgerufen am 23. April 2020]).
  14. Referat B5: Empfehlungen des Bundesarchivs zur Anwendung der verschiedenen PDF/A-Versionen. (PDF) In: www.bundesarchiv.de. Bundesarchiv (BArch), April 2021, S. 7, abgerufen am 17. August 2023 (deutsch).
  15. Roland Suri: How do I create a PDF/A file? 15. Februar 2017, abgerufen am 23. April 2020 (amerikanisches Englisch).