Begriffe · Word & PDF 2026

Word-zu-PDF-Glossar

25 zentrale Begriffe rund um Dateiformate, Schriften und die Konvertierung, kompakt und verständlich erklärt.

Verfahren, bei dem die Konvertierung vollständig im Browser des Nutzers abläuft, ohne dass Dateien an einen Server gesendet werden.

Die client-seitige Verarbeitung beschreibt eine Architektur, bei der die gesamte Rechenarbeit auf dem Gerät des Nutzers stattfindet. Bei einem Word-zu-PDF-Konverter wird die hochgeladene Datei im Browser eingelesen, ausgewertet und in ein PDF umgewandelt. Die Datei verlässt das Gerät zu keinem Zeitpunkt.

Technisch wird das über JavaScript-Bibliotheken wie mammoth.js und jsPDF realisiert, die direkt in der Webseite laufen. Es gibt keinen Upload, keine Zwischenspeicherung auf einem fremden Server und keine Übertragung über das Netz. Nach dem Schließen des Browser-Tabs bleibt nichts zurück.

Der Vorteil liegt in Datenschutz und Geschwindigkeit: Vertrauliche Dokumente verlassen das eigene Gerät nicht, was die DSGVO-Konformität deutlich vereinfacht. Gleichzeitig entfällt die Wartezeit für Up- und Download, da kein Datenverkehr nötig ist.

Verwandt: mammoth.js,jsPDF,Rendering

DOC

Binäres Dateiformat von Microsoft Word bis Version 2003, mit der Endung .doc, das auf dem älteren OLE-Container basiert.

Das DOC-Format ist das ursprüngliche Dateiformat von Microsoft Word, das von den 1990er Jahren bis Word 2003 als Standard diente. Dateien tragen die Endung .doc und liegen als binärer Datenstrom im OLE-Compound-File-Format vor.

Im Gegensatz zum nachfolgenden DOCX ist DOC nicht textbasiert, sondern binär codiert. Die Struktur ist proprietär und schwieriger maschinell auszuwerten, weil Formatierung, Text und Metadaten in einem einzigen Binärcontainer verschachtelt sind. Das macht die Konvertierung aufwendiger als bei DOCX.

DOC wird zwar noch von aktuellen Word-Versionen geöffnet, gilt aber als veraltet. Beim Umwandeln in PDF können bei reinen DOC-Dateien einzelne komplexe Layout-Elemente abweichen, da nicht alle Bibliotheken den vollen Funktionsumfang des alten Binärformats unterstützen. Für beste Ergebnisse empfiehlt sich vorab das Speichern als DOCX.

Verwandt: DOCX,OOXML,PDF

DOCX

Standard-Dateiformat von Microsoft Word seit 2007, ein ZIP-Container mit XML-Dateien nach dem OOXML-Standard.

DOCX ist das aktuelle Standardformat von Microsoft Word, eingeführt mit Office 2007. Die Endung lautet .docx. Anders als das ältere DOC ist DOCX ein offenes, textbasiertes Format.

Technisch ist eine DOCX-Datei ein ZIP-Archiv, das mehrere XML-Dateien sowie eingebettete Medien (Bilder, Schriften) enthält. Der eigentliche Text liegt in einer Datei namens document.xml. Diese Struktur folgt dem OOXML-Standard (Office Open XML) und ist als ISO/IEC 29500 normiert.

Weil DOCX strukturiert und offen dokumentiert ist, lässt es sich gut maschinell auslesen. Bibliotheken wie mammoth.js entpacken das ZIP, lesen das enthaltene XML und übersetzen es in HTML, das anschließend in ein PDF gerendert wird. DOCX ist damit das am besten geeignete Eingabeformat für eine zuverlässige Word-zu-PDF-Konvertierung.

Verwandt: DOC,OOXML,mammoth.js

Font-Embedding

Einbettung der verwendeten Schriftarten direkt in die PDF-Datei, damit Text überall identisch dargestellt wird.

Das Font-Embedding (Schrifteinbettung) bezeichnet das Speichern der verwendeten Schriftarten innerhalb der PDF-Datei. Dadurch wird der Text exakt so angezeigt, wie er gestaltet wurde, auch auf Geräten, auf denen die Originalschrift nicht installiert ist.

Ohne Einbettung muss das anzeigende Programm eine vorhandene Schrift als Ersatz wählen, was zu verschobenen Zeilenumbrüchen, anderen Zeichenbreiten und einem veränderten Erscheinungsbild führen kann. Mit eingebetteter Schrift bleibt die Darstellung geräteunabhängig stabil.

PDF-Bibliotheken wie jsPDF arbeiten standardmäßig mit einem festen Satz von Standardschriften (etwa Helvetica oder Times). Sollen abweichende Schriften originalgetreu erscheinen, müssen deren Schriftdateien als Base64 eingebunden und in das PDF eingebettet werden. Andernfalls greift die Schriftsubstitution.

Verwandt: Schriftsubstitution,Serifenschrift,PDF/A

Hochformat / Querformat

Die zwei möglichen Seitenausrichtungen eines Dokuments: hochkant (Portrait) oder quer (Landscape).

Hochformat (englisch Portrait) und Querformat (englisch Landscape) beschreiben die Ausrichtung einer Dokumentseite. Im Hochformat ist die Seite höher als breit, im Querformat breiter als hoch. Bei A4 entspricht das den Maßen 210 mal 297 Millimeter (hoch) beziehungsweise 297 mal 210 Millimeter (quer).

Die Standardausrichtung für Textdokumente ist das Hochformat. Querformat wird vor allem für breite Tabellen, Diagramme, Präsentationen oder Zeitpläne genutzt, die im Hochformat nicht genug Platz hätten.

Beim Umwandeln in PDF wird die Ausrichtung übernommen oder bewusst gesetzt. In jsPDF wird sie beim Anlegen des Dokuments über den Parameter "orientation" festgelegt, etwa "portrait" oder "landscape". Die gewählte Ausrichtung bestimmt zusammen mit dem Seitenformat den nutzbaren Satzspiegel.

Verwandt: Seitenformat A4,Seitenumbruch,Rendering

Hyperlink

Anklickbarer Verweis im Dokument, der auf eine Webadresse, eine E-Mail-Adresse oder eine andere Stelle verlinkt.

Ein Hyperlink ist ein interaktiver Verweis innerhalb eines Dokuments. Im Word-Dokument hinterlegte Links können auf Webseiten (URL), E-Mail-Adressen (mailto) oder Sprungmarken innerhalb des Dokuments zeigen.

Beim Umwandeln in PDF gibt es zwei Aspekte: den sichtbaren Linktext und das hinterlegte Linkziel. Einfache Konvertierungen übernehmen oft nur den Text und stellen ihn als normale Zeichenfolge dar. Anklickbare Links erfordern, dass die PDF-Bibliothek das Ziel als sogenannte Link-Annotation in das PDF schreibt.

In jsPDF lassen sich klickbare Verweise über eigene Link-Methoden setzen. Ob Hyperlinks aus einem Word-Dokument vollständig als aktive Links erhalten bleiben, hängt davon ab, wie der Konverter den HTML-Zwischenschritt auswertet. Sichtbar bleibt die Adresse in jedem Fall, sofern sie im Text steht.

Verwandt: Rendering,Metadaten,PDF

jsPDF

JavaScript-Bibliothek zur Erzeugung von PDF-Dateien direkt im Browser, ohne Server-Komponente.

jsPDF ist eine quelloffene JavaScript-Bibliothek, mit der PDF-Dateien direkt im Browser erzeugt werden. Sie ermöglicht es, Text, Linien, Bilder und ganze Layouts programmatisch zu setzen und das Ergebnis als PDF auszugeben, ohne dass ein Server beteiligt ist.

Beim Word-zu-PDF-Konverter übernimmt jsPDF den zweiten Schritt der Verarbeitung: Nachdem mammoth.js die Word-Datei in HTML übersetzt hat, wandelt jsPDF diesen Inhalt in ein druckbares PDF um. Dabei werden Seitenformat, Ausrichtung, Ränder und Schriften festgelegt.

jsPDF arbeitet mit einem festen Satz von Standardschriften und unterstützt das Einbetten eigener Schriften über Base64. Da die Bibliothek vollständig client-seitig läuft, bleibt die verarbeitete Datei auf dem Gerät des Nutzers. Das macht sie zur idealen Grundlage für datenschutzfreundliche Konverter ohne Server-Upload.

Verwandt: mammoth.js,Client-seitige Verarbeitung,Font-Embedding

Komprimierung

Verfahren zur Reduzierung der Dateigröße eines PDFs, etwa durch verlustbehaftete Bildkompression oder Stream-Komprimierung.

Die Komprimierung verkleinert die Dateigröße eines PDFs, ohne den Inhalt grundlegend zu verändern. Sie ist wichtig, damit Dokumente schnell versendet und gespeichert werden können, vor allem wenn viele oder hochauflösende Bilder enthalten sind.

Man unterscheidet verlustfreie und verlustbehaftete Verfahren. Verlustfreie Komprimierung (etwa Deflate für Textströme) reduziert die Größe, ohne Information zu verlieren. Verlustbehaftete Verfahren wie JPEG senken die Bildqualität, um deutlich kleinere Dateien zu erzielen.

Bei der PDF-Erzeugung im Browser entsteht die Dateigröße vor allem durch eingebettete Rastergrafiken und Schriften. Wer große Bilder vor dem Konvertieren auf eine sinnvolle Auflösung herunterskaliert, erhält ein deutlich kleineres PDF. Reiner Text fällt bei der Dateigröße kaum ins Gewicht.

Verwandt: Rastergrafik vs. Vektor,PDF,Metadaten

Kopf-/Fußzeile

Wiederkehrende Bereiche am oberen und unteren Seitenrand, etwa für Seitenzahlen, Titel oder Datum.

Die Kopfzeile (Header) und die Fußzeile (Footer) sind reservierte Bereiche am oberen und unteren Rand jeder Seite. Sie enthalten typischerweise wiederkehrende Angaben wie Seitenzahl, Dokumenttitel, Datum, Autor oder ein Logo.

In Word liegen Kopf- und Fußzeilen außerhalb des Haupttextflusses und wiederholen sich automatisch auf jeder Seite. Diese Trennung ist im DOCX-Format als eigener Strukturbereich abgelegt und nicht Teil des fortlaufenden Texts.

Beim Umwandeln in PDF werden Kopf- und Fußzeilen nicht von jeder Konverter-Bibliothek automatisch übernommen. Bibliotheken wie mammoth.js konzentrieren sich auf den Hauptinhalt des Dokuments. Sollen Seitenzahlen oder feste Kopfzeilen im PDF erscheinen, müssen diese beim Rendern über die PDF-Bibliothek gesondert pro Seite gesetzt werden.

Verwandt: Seitenumbruch,Rendering,Metadaten

Magic Bytes

Charakteristische Bytefolge am Dateianfang, an der sich das echte Dateiformat unabhängig von der Endung erkennen lässt.

Magic Bytes (auch File Signature genannt) sind eine feste Bytefolge am Anfang einer Datei, die ihr tatsächliches Format kennzeichnet. Sie erlauben es, ein Format zuverlässig zu erkennen, auch wenn die Dateiendung falsch oder manipuliert ist.

Beispiele: Eine DOCX-Datei beginnt wie jedes ZIP-Archiv mit den Bytes 50 4B 03 04 (in Textform "PK"). Ein PDF startet mit 25 50 44 46 ("%PDF"). Anhand dieser Signatur kann ein Programm prüfen, ob eine Datei wirklich das ist, was die Endung verspricht.

Für einen Konverter ist die Prüfung der Magic Bytes ein wichtiger Sicherheits- und Validierungsschritt. Statt sich allein auf die Endung .doc oder .docx zu verlassen, prüft eine robuste Anwendung die ersten Bytes, um falsch benannte oder beschädigte Dateien früh abzufangen und verständliche Fehlermeldungen auszugeben.

Verwandt: MIME-Type,DOCX,Zeichenkodierung UTF-8

mammoth.js

JavaScript-Bibliothek, die DOCX-Dokumente in sauberes, semantisches HTML umwandelt, als Zwischenschritt zur PDF-Erzeugung.

mammoth.js ist eine quelloffene JavaScript-Bibliothek, die Word-Dokumente im DOCX-Format in HTML übersetzt. Ihr Ziel ist nicht die pixelgenaue Nachbildung des Word-Layouts, sondern die saubere Übernahme der inhaltlichen Struktur: Überschriften, Absätze, Listen, Fett- und Kursivschrift sowie Tabellen.

Mammoth liest das DOCX als ZIP-Archiv, wertet das enthaltene document.xml aus und ordnet die Word-Formatvorlagen passenden HTML-Elementen zu. Eine Überschrift im Stil "Heading 1" wird so zu einem h1-Element. Das Ergebnis ist semantisch sauberes HTML statt verschachtelter Layout-Tabellen.

In einem Word-zu-PDF-Konverter bildet mammoth.js den ersten Schritt: Es erzeugt das HTML, das anschließend von jsPDF in ein PDF gerendert wird. Da mammoth bewusst auf inhaltliche Struktur statt visuelle Pixeltreue setzt, können sehr komplexe Word-Layouts im PDF vereinfacht erscheinen.

Verwandt: jsPDF,DOCX,Rendering

Metadaten

Beschreibende Zusatzinformationen einer Datei wie Titel, Autor, Erstellungsdatum oder Schlagwörter, getrennt vom Inhalt.

Metadaten sind Daten über die Datei selbst, nicht über deren sichtbaren Inhalt. Bei Dokumenten zählen dazu Titel, Autor, Erstellungs- und Änderungsdatum, Anwendung, Schlagwörter und Sprache. Sie werden im Dateikopf gespeichert.

Sowohl DOCX als auch PDF besitzen einen eigenen Metadaten-Bereich. Im PDF liegen diese Angaben im Document Information Dictionary oder als XMP-Datensatz vor. Sie sind nützlich für Archivierung, Suche und Rechteverwaltung, können aber auch ungewollt persönliche Informationen enthalten.

Bei der Konvertierung werden Word-Metadaten nicht zwangsläufig in das PDF übernommen. Eine PDF-Bibliothek wie jsPDF erlaubt es, Felder wie Titel, Autor und Erzeuger gezielt zu setzen. Wer ein Dokument vor der Weitergabe von verräterischen Metadaten befreien möchte, sollte die Felder bewusst leeren oder neu setzen.

Verwandt: PDF/A,Komprimierung,Hyperlink

MIME-Type

Standardisierte Kennung für den Inhaltstyp einer Datei, etwa application/pdf, die Browser zur Behandlung der Datei nutzen.

Der MIME-Type (Multipurpose Internet Mail Extensions) ist eine standardisierte Typkennung, die angibt, welche Art von Inhalt eine Datei enthält. Browser und Programme entscheiden anhand des MIME-Types, wie eine Datei zu behandeln ist.

Relevante Beispiele: Ein PDF hat den MIME-Type application/pdf. Eine DOCX-Datei trägt application/vnd.openxmlformats-officedocument.wordprocessingml.document. Das ältere DOC nutzt application/msword. Diese Kennungen erscheinen unter anderem im HTTP-Header und beim Auslesen hochgeladener Dateien im Browser.

Ein Konverter prüft den MIME-Type, um sicherzustellen, dass nur unterstützte Eingabeformate verarbeitet werden. Da sich der gemeldete MIME-Type fälschen lässt, kombiniert eine robuste Anwendung diese Prüfung mit einer Kontrolle der Magic Bytes. Beim Download des fertigen PDFs wird der korrekte MIME-Type gesetzt, damit der Browser die Datei richtig öffnet oder speichert.

Verwandt: Magic Bytes,DOCX,PDF

ODT

Offenes Textdokumentformat von LibreOffice und OpenOffice nach dem OpenDocument-Standard, mit der Endung .odt.

Das ODT-Format (OpenDocument Text) ist das Standard-Textformat freier Office-Pakete wie LibreOffice und Apache OpenOffice. Es folgt dem OpenDocument-Standard, der als ISO/IEC 26300 normiert ist, und trägt die Endung .odt.

Wie DOCX ist auch ODT technisch ein ZIP-Container mit XML-Dateien und eingebetteten Medien. Der Hauptinhalt liegt in einer Datei namens content.xml. Trotz der ähnlichen Bauweise unterscheidet sich die innere XML-Struktur deutlich von der des OOXML-Formats DOCX.

Ein auf mammoth.js gestützter Konverter ist primär auf DOCX ausgelegt und liest ODT in der Regel nicht direkt. Wer ein ODT-Dokument umwandeln möchte, speichert es zuvor in LibreOffice als DOCX ab. Anschließend funktioniert die Word-zu-PDF-Konvertierung wie bei einem nativen Word-Dokument.

Verwandt: DOCX,RTF,OOXML

OOXML

Office Open XML, der offene XML-basierte Dateistandard hinter DOCX, XLSX und PPTX, normiert als ISO/IEC 29500.

OOXML (Office Open XML) ist der offene, XML-basierte Dateistandard, auf dem die modernen Microsoft-Office-Formate beruhen. Dazu gehören DOCX für Text, XLSX für Tabellen und PPTX für Präsentationen. OOXML ist als ISO/IEC 29500 international normiert.

Der Standard legt fest, wie Inhalt, Formatierung und Struktur in mehreren XML-Dateien innerhalb eines ZIP-Containers abgelegt werden. Bei DOCX beschreibt etwa document.xml den Text, während weitere XML-Dateien Stile, Nummerierungen und Beziehungen zwischen den Teilen definieren.

Weil OOXML offen dokumentiert ist, können Bibliotheken außerhalb von Microsoft Office die Dateien zuverlässig auslesen. Das ist die Grundlage dafür, dass ein Browser-Konverter ein DOCX-Dokument entpacken, die XML-Struktur interpretieren und in HTML und anschließend in ein PDF überführen kann.

Verwandt: DOCX,ODT,Zeichenkodierung UTF-8

PDF

Portable Document Format von Adobe, ein plattformunabhängiges Format zur originalgetreuen Wiedergabe von Dokumenten.

PDF steht für Portable Document Format und wurde 1993 von Adobe eingeführt. Seit 2008 ist es als ISO 32000 ein offener Standard. Das zentrale Ziel des Formats ist die geräte- und plattformunabhängige, originalgetreue Wiedergabe eines Dokuments.

Ein PDF beschreibt eine Seite präzise mit festen Positionen für Text, Schriften, Grafiken und Bilder. Anders als bei einem Word-Dokument verschiebt sich das Layout nicht, wenn die Datei auf einem anderen Gerät geöffnet wird. Schriften können eingebettet werden, damit die Darstellung überall identisch bleibt.

Diese Layout-Treue macht PDF zum bevorzugten Format für Versand, Druck, Verträge und Archivierung. Beim Umwandeln eines Word-Dokuments in PDF wird der bearbeitbare Fließtext in ein fixiertes Seitenlayout überführt. Das Ergebnis ist stabil darstellbar, aber nicht mehr ohne Weiteres als Text bearbeitbar.

Verwandt: PDF/A,DOCX,Rendering

PDF/A

Für die Langzeitarchivierung normierte PDF-Variante (ISO 19005) mit Pflicht zur Schrifteinbettung und ohne externe Abhängigkeiten.

PDF/A ist eine spezielle PDF-Variante für die Langzeitarchivierung, normiert als ISO 19005. Sie stellt sicher, dass ein Dokument auch nach Jahrzehnten unverändert und ohne externe Ressourcen darstellbar bleibt.

Dazu schreibt der Standard strenge Regeln vor: Alle Schriften müssen eingebettet sein, externe Verweise und nicht eingebettete Inhalte sind verboten, und Funktionen wie Verschlüsselung oder eingebettetes JavaScript sind untersagt. Auch der Farbraum muss eindeutig definiert sein.

PDF/A wird in Behörden, Archiven und der revisionssicheren Geschäftsdokumentation gefordert. Ein einfacher Browser-Konverter erzeugt in der Regel ein normales PDF, kein streng konformes PDF/A. Wer Archivkonformität benötigt, sollte das Ergebnis mit einem darauf spezialisierten Werkzeug prüfen oder nachkonvertieren.

Verwandt: PDF,Font-Embedding,Metadaten

Rastergrafik vs. Vektor

Zwei Bildarten: Rastergrafiken bestehen aus Pixeln, Vektorgrafiken aus skalierbaren mathematischen Kurven.

Eine Rastergrafik setzt sich aus einem festen Gitter einzelner Bildpunkte (Pixel) zusammen. Typische Formate sind JPEG, PNG und GIF. Beim Vergrößern werden die Pixel sichtbar, das Bild wirkt unscharf. Fotos sind immer Rastergrafiken.

Eine Vektorgrafik beschreibt Formen dagegen über mathematische Kurven, Linien und Flächen. Sie lässt sich beliebig skalieren, ohne an Schärfe zu verlieren. Logos, Diagramme und Schriftzeichen sind häufig vektorbasiert. Ein verbreitetes Format ist SVG.

Für PDFs ist die Unterscheidung wichtig: Text und eingebettete Schriften sind im PDF vektorbasiert und bleiben bei jedem Zoom gestochen scharf. Eingefügte Fotos bleiben Rastergrafiken und bestimmen maßgeblich die Dateigröße. Wer kleine, scharfe PDFs will, hält Text als Vektor und reduziert die Auflösung großer Rasterbilder vor dem Einfügen.

Verwandt: Komprimierung,Rendering,PDF

Rendering

Der Prozess, bei dem strukturierte Inhalte in eine sichtbare, fertig gesetzte Seitendarstellung umgewandelt werden.

Das Rendering bezeichnet die Umwandlung von strukturierten Daten in eine konkrete, sichtbare Darstellung. Bei der PDF-Erzeugung bedeutet das: Aus dem aus dem Word-Dokument gewonnenen HTML werden konkrete Seiten mit gesetztem Text, Schriftgrößen, Zeilenumbrüchen und Bildpositionen erzeugt.

Beim Word-zu-PDF-Konverter erfolgt das Rendering in zwei Etappen. Zuerst übersetzt mammoth.js das DOCX in semantisches HTML. Dann interpretiert jsPDF dieses HTML und berechnet, wo jeder Textabschnitt auf der PDF-Seite landet, wann ein Seitenumbruch nötig ist und wie Bilder platziert werden.

Da das Rendering die inhaltliche Struktur in ein festes Seitenlayout überführt, kann das Ergebnis vom ursprünglichen Word-Layout abweichen. Komplexe mehrspaltige Layouts, exakte Tabulatorabstände oder absolute Positionierungen werden vereinfacht. Standardstrukturen wie Überschriften, Absätze und Listen werden dagegen zuverlässig übernommen.

Verwandt: mammoth.js,jsPDF,Seitenumbruch

RTF

Rich Text Format von Microsoft, ein textbasiertes Austauschformat für formatierten Text mit der Endung .rtf.

Das RTF (Rich Text Format) ist ein von Microsoft entwickeltes, textbasiertes Dateiformat zum Austausch formatierter Texte zwischen verschiedenen Programmen. Es trägt die Endung .rtf und wird von nahezu jeder Textverarbeitung gelesen.

Anders als das binäre DOC oder das XML-basierte DOCX speichert RTF Formatierungen über Steuerbefehle direkt im Text, etwa Markierungen für Fettschrift, Schriftgröße oder Absätze. Dadurch ist die Datei zwar als reiner Text lesbar, aber für komplexe Layouts weniger leistungsfähig als DOCX.

RTF dient vor allem als kompatibles Zwischenformat. Ein auf DOCX spezialisierter Browser-Konverter verarbeitet RTF in der Regel nicht direkt. Für die Umwandlung in PDF empfiehlt es sich, die RTF-Datei zuvor in Word oder LibreOffice als DOCX zu speichern und dann zu konvertieren.

Verwandt: DOC,DOCX,ODT

Schriftsubstitution

Automatischer Ersatz einer nicht verfügbaren Schriftart durch eine ähnliche, was das Layout verändern kann.

Die Schriftsubstitution (Font Substitution) bezeichnet den automatischen Ersatz einer im Dokument verwendeten, aber nicht verfügbaren Schriftart durch eine andere. Sie greift immer dann, wenn die Originalschrift nicht eingebettet und auf dem anzeigenden System nicht installiert ist.

Da Ersatzschriften andere Zeichenbreiten, Höhen und Abstände haben, können sich Zeilenumbrüche verschieben, Texte länger oder kürzer wirken und das Gesamtlayout abweichen. Bei eng gesetzten Dokumenten führt das schnell zu sichtbaren Unterschieden.

Im Word-zu-PDF-Konverter ist die Schriftsubstitution relevant, weil PDF-Bibliotheken wie jsPDF standardmäßig nur einen begrenzten Schriftensatz kennen. Schriften, die nicht zu diesem Satz gehören und nicht eigens eingebettet werden, werden durch eine Standardschrift ersetzt. Wer originalgetreue Schriften braucht, muss diese gezielt einbetten.

Verwandt: Font-Embedding,Serifenschrift,Rendering

Seitenformat A4

Das in Europa übliche Papierformat mit 210 mal 297 Millimetern, Standard für Briefe und Dokumente nach DIN 476 / ISO 216.

Das Seitenformat A4 ist das in Europa und weiten Teilen der Welt übliche Standardformat für Dokumente. Es misst 210 mal 297 Millimeter und ist in der Norm DIN 476 beziehungsweise international in ISO 216 festgelegt.

Die A-Reihe folgt einem festen Seitenverhältnis von 1 zu Wurzel 2. Dadurch entsteht jedes nächstkleinere Format durch Halbieren der längeren Seite: Zwei A4-Blätter ergeben ein A3, zwei A5 ein A4. Dieses Verhältnis bleibt beim Falten und Skalieren erhalten.

Bei der PDF-Erzeugung ist A4 das Standardformat. In jsPDF wird es über den Parameter "format" als "a4" gesetzt. Zusammen mit der gewählten Ausrichtung (Hoch- oder Querformat) und den Seitenrändern bestimmt das Seitenformat, wie viel Text auf eine Seite passt und wann ein Seitenumbruch nötig wird.

Verwandt: Hochformat / Querformat,Seitenumbruch,PDF

Seitenumbruch

Übergang vom Ende einer Seite zum Anfang der nächsten, der den Inhalt auf mehrere Seiten verteilt.

Ein Seitenumbruch markiert den Punkt, an dem der Inhalt einer Seite endet und auf der nächsten fortgesetzt wird. Man unterscheidet automatische Umbrüche, die beim Erreichen des Seitenendes entstehen, und manuelle Umbrüche, die bewusst gesetzt werden, um etwa ein neues Kapitel auf einer frischen Seite zu beginnen.

In Word wird ein manueller Seitenumbruch als eigenes Steuerzeichen im DOCX gespeichert. Automatische Umbrüche ergeben sich dynamisch aus Textmenge, Schriftgröße und Seitenformat und sind nicht fest hinterlegt.

Bei der PDF-Erzeugung muss der Konverter selbst entscheiden, wann eine neue Seite beginnt. jsPDF berechnet anhand der nutzbaren Seitenhöhe, ab wann der Text nicht mehr passt, und fügt automatisch eine neue Seite ein. Manuelle Umbrüche aus dem Word-Dokument werden je nach Konverter unterschiedlich genau übernommen.

Verwandt: Seitenformat A4,Hochformat / Querformat,Rendering

Serifenschrift

Schriftart mit kleinen Endstrichen (Serifen) an den Buchstaben, etwa Times oder Georgia, oft für Fließtext in Dokumenten.

Eine Serifenschrift ist eine Schriftart, deren Buchstaben kleine Endstriche, sogenannte Serifen, an den Enden der Linien tragen. Bekannte Beispiele sind Times New Roman, Georgia und Garamond. Das Gegenstück sind serifenlose Schriften (Sans-Serif) wie Arial oder Helvetica.

Serifen leiten das Auge entlang der Zeile und gelten daher im Druck als gut lesbar für längere Fließtexte. Viele klassische Word-Dokumente, Briefe und wissenschaftliche Arbeiten verwenden deshalb eine Serifenschrift für den Haupttext.

Bei der PDF-Erzeugung mit jsPDF steht mit "Times" eine Serifenschrift im Standardsatz zur Verfügung, neben den serifenlosen Varianten. Wird im Word-Dokument eine andere Serifenschrift genutzt, die nicht eingebettet ist, greift die Schriftsubstitution und ersetzt sie durch die nächstpassende verfügbare Schrift.

Verwandt: Font-Embedding,Schriftsubstitution,Rendering

Zeichenkodierung UTF-8

Verbreitete Kodierung, die jedes Unicode-Zeichen abbildet, inklusive Umlaute, Sonderzeichen und Emojis.

UTF-8 ist die heute verbreitetste Zeichenkodierung. Sie bildet den gesamten Unicode-Zeichensatz ab und kann damit lateinische Buchstaben, deutsche Umlaute (ä, ö, ü), das ß, kyrillische oder asiatische Schriftzeichen sowie Emojis korrekt darstellen.

Technisch nutzt UTF-8 eine variable Länge: Ein einfaches lateinisches Zeichen belegt ein Byte, während Umlaute und Sonderzeichen zwei oder mehr Bytes benötigen. Diese Eigenschaft macht sie kompatibel zum alten ASCII und gleichzeitig universell einsetzbar.

Bei der Word-zu-PDF-Konvertierung ist die korrekte Kodierung entscheidend, damit Umlaute und Sonderzeichen nicht als Fragezeichen oder kaputte Zeichenfolgen erscheinen. Da DOCX intern UTF-8 verwendet, muss der Konverter diese Kodierung durchgängig bis ins PDF erhalten. Bei eingebetteten Schriften ist zudem wichtig, dass der gewählte Font die benötigten Zeichen überhaupt enthält.

Verwandt: OOXML,Font-Embedding,Magic Bytes