Zeichenkodierung UTF-8

Verbreitete Kodierung, die jedes Unicode-Zeichen abbildet, inklusive Umlaute, Sonderzeichen und Emojis.

UTF-8 ist die heute verbreitetste Zeichenkodierung. Sie bildet den gesamten Unicode-Zeichensatz ab und kann damit lateinische Buchstaben, deutsche Umlaute (ä, ö, ü), das ß, kyrillische oder asiatische Schriftzeichen sowie Emojis korrekt darstellen.

Technisch nutzt UTF-8 eine variable Länge: Ein einfaches lateinisches Zeichen belegt ein Byte, während Umlaute und Sonderzeichen zwei oder mehr Bytes benötigen. Diese Eigenschaft macht sie kompatibel zum alten ASCII und gleichzeitig universell einsetzbar.

Bei der Word-zu-PDF-Konvertierung ist die korrekte Kodierung entscheidend, damit Umlaute und Sonderzeichen nicht als Fragezeichen oder kaputte Zeichenfolgen erscheinen. Da DOCX intern UTF-8 verwendet, muss der Konverter diese Kodierung durchgängig bis ins PDF erhalten. Bei eingebetteten Schriften ist zudem wichtig, dass der gewählte Font die benötigten Zeichen überhaupt enthält.

Zeichenkodierung UTF-8

Verwandte Begriffe