Glossar-Eintrag
Zeichenkodierung UTF-8
Verbreitete Kodierung, die jedes Unicode-Zeichen abbildet, inklusive Umlaute, Sonderzeichen und Emojis.
UTF-8 ist die heute verbreitetste Zeichenkodierung. Sie bildet den gesamten Unicode-Zeichensatz ab und kann damit lateinische Buchstaben, deutsche Umlaute (ä, ö, ü), das ß, kyrillische oder asiatische Schriftzeichen sowie Emojis korrekt darstellen.
Technisch nutzt UTF-8 eine variable Länge: Ein einfaches lateinisches Zeichen belegt ein Byte, während Umlaute und Sonderzeichen zwei oder mehr Bytes benötigen. Diese Eigenschaft macht sie kompatibel zum alten ASCII und gleichzeitig universell einsetzbar.
Bei der Word-zu-PDF-Konvertierung ist die korrekte Kodierung entscheidend, damit Umlaute und Sonderzeichen nicht als Fragezeichen oder kaputte Zeichenfolgen erscheinen. Da DOCX intern UTF-8 verwendet, muss der Konverter diese Kodierung durchgängig bis ins PDF erhalten. Bei eingebetteten Schriften ist zudem wichtig, dass der gewählte Font die benötigten Zeichen überhaupt enthält.
Verwandte Begriffe
OOXML
Office Open XML, der offene XML-basierte Dateistandard hinter DOCX, XLSX und PPTX, normiert als ISO/IEC 29500.
Font-Embedding
Einbettung der verwendeten Schriftarten direkt in die PDF-Datei, damit Text überall identisch dargestellt wird.
Magic Bytes
Charakteristische Bytefolge am Dateianfang, an der sich das echte Dateiformat unabhängig von der Endung erkennen lässt.