Ratgeber · Word zu PDF 2026
DOC oder DOCX? Der Unterschied und seine Folgen
Warum Microsoft 2007 von binärem DOC auf XML-basiertes DOCX umgestellt hat, welche Kompatibilitätsfallen bleiben und wie sich beide Formate konvertieren lassen.
Zwei Endungen, zwei Welten
Die Dateiendungen .doc und .docx sehen fast gleich aus, dahinter stehen aber zwei grundverschiedene Technologien. Das ältere .doc ist ein binäres Format, das Microsoft von Word 97 bis Word 2003 als Standard nutzte. Das .docx kam mit Word 2007 und basiert auf offenem XML. Das angehängte "x" markiert genau diesen Wechsel zur XML-Welt.
Für den Nutzer ändert sich beim Öffnen meist nichts, beide Formate zeigen denselben Text. Sobald es aber um Kompatibilität, Dateigröße, Wiederherstellung beschädigter Dateien oder die Umwandlung in PDF geht, machen sich die Unterschiede deutlich bemerkbar.
Das binäre DOC: alles in einem Block
Eine .doc speichert Text, Formatierung, Bilder und Metadaten in einem proprietären Binärformat, das auf der OLE-Compound-File-Technologie aufsetzt. Man kann sich das wie ein verschlüsseltes Paket vorstellen, dessen innerer Aufbau nur dem Hersteller vollständig bekannt war. Microsoft hat die Spezifikation zwar später veröffentlicht, sie umfasst aber über tausend Seiten und enthält zahlreiche historisch gewachsene Sonderfälle.
Das hat Folgen: Eine beschädigte .doc ist oft komplett verloren, weil ein einziger korrupter Byte-Block die gesamte Struktur unlesbar machen kann. Außerdem konnten in .doc-Dateien Makros und ausführbarer Code besonders unauffällig versteckt werden, weshalb das Format ein beliebtes Einfallstor für Schadsoftware war.
Das XML-basierte DOCX: offen und robust
Das .docx ist ein ZIP-Container mit mehreren XML-Dateien, normiert als ISO/IEC 29500. Der Aufbau ist offengelegt, lesbar und gut dokumentiert. Wie genau dieser Container aufgebaut ist, beschreibt der Ratgeber Was ist DOCX im Detail. Die wichtigsten praktischen Vorteile:
- Kleinere Dateien: Durch die ZIP-Komprimierung sind .docx oft deutlich kleiner als vergleichbare .doc-Dateien.
- Robuster: Ist eine XML-Datei im Archiv beschädigt, lassen sich die übrigen Teile, etwa Bilder oder Text, oft noch retten.
- Maschinenlesbar: Software kann den Inhalt ohne Word auslesen, was Konvertierungen erst praktikabel macht.
- Sicherer: Makros landen in einer separaten Endung .docm, sodass eine reine .docx erkennbar makrofrei ist.
Direkter Vergleich
| Eigenschaft | DOC (alt) | DOCX (aktuell) |
|---|---|---|
| Technologie | Binär (OLE) | ZIP mit XML |
| Eingeführt mit | Word 97 | Word 2007 |
| Standardisiert | nein (proprietär) | ISO/IEC 29500 |
| Typische Größe | größer | kleiner durch Komprimierung |
| Makros enthalten | möglich | nein (dafür .docm) |
| Maschinell lesbar | schwer | einfach |
Kompatibilität in der Praxis
Aktuelle Word-Versionen öffnen beide Formate problemlos. Wer eine alte .doc in einem modernen Word öffnet, sieht oben den Hinweis "Kompatibilitätsmodus". In diesem Modus deaktiviert Word neuere Funktionen, damit das Dokument auch in alten Versionen unverändert aussieht. Mit "Datei, Konvertieren" lässt sich die Datei dauerhaft ins moderne .docx überführen.
Heikel wird es in die andere Richtung: Eine .docx in einem 20 Jahre alten Word 2003 zu öffnen, klappt nur mit einem nachinstallierten Kompatibilitätspaket, und selbst dann gehen moderne Elemente verloren. In der Behörden- und Anwaltswelt, wo teils noch sehr alte Systeme laufen, ist das ein realer Stolperstein.
Online-Dienste verstehen beides
Gute Konverter akzeptieren sowohl .doc als auch .docx. Technisch ist die Verarbeitung aber unterschiedlich: Eine .docx lässt sich direkt als XML auslesen, eine .doc muss zunächst aufwendig binär dekodiert werden. Deshalb liefern viele browser-basierte Werkzeuge bei .docx das sauberere Ergebnis. Wer eine alte .doc hat, fährt oft besser, sie zuerst in Word oder LibreOffice einmal als .docx zu speichern und dann umzuwandeln.
Welches Format für die PDF-Umwandlung?
Für die Umwandlung in PDF ist .docx klar im Vorteil. Die offene XML-Struktur lässt sich mit Bibliotheken wie mammoth.js direkt im Browser auslesen, ohne dass die Datei einen Server erreichen muss. Eine .doc erfordert dagegen eine Binär-Dekodierung, die nicht jedes client-seitige Werkzeug beherrscht. Wer also die Wahl hat, speichert in Word über "Speichern unter" das moderne .docx und wandelt dieses um.
Warum Microsoft überhaupt umgestellt hat
Der Wechsel 2007 war kein Selbstzweck. Das binäre .doc war über Jahre gewachsen und schleppte Altlasten aus den frühen 90ern mit. Jede neue Word-Funktion musste irgendwie in das starre Binärformat gepresst werden, was es zunehmend fehleranfällig machte. Hinzu kam politischer Druck: Behörden und öffentliche Stellen forderten offene, dokumentierte Dateiformate, um nicht dauerhaft von einem einzigen Hersteller abhängig zu sein. Die freie Konkurrenz hatte mit dem OpenDocument-Format (ODT) bereits einen offenen XML-Standard vorgelegt. Microsoft antwortete mit OOXML und ließ es als ISO-Standard normieren, um im Behördengeschäft anschlussfähig zu bleiben.
Die Sache mit dem .docm
Eine wichtige Neuerung der DOCX-Familie ist die saubere Trennung von Makros. Eine reine .docx kann technisch keine Makros enthalten. Sobald ein Dokument Makros mit sich führt, muss es als .docm gespeichert werden. Diese Trennung ist ein Sicherheitsgewinn: Wer eine .docx erhält, weiß, dass darin kein ausführbarer Code lauert. Beim alten .doc war das nicht erkennbar, weshalb Makro-Viren dort lange ein großes Problem waren. Für die Umwandlung in PDF ist das praktisch, weil eine makrofreie .docx ohne Sicherheitsbedenken verarbeitet werden kann.
Was passiert beim Speichern als DOCX?
Speichert man in Word ein Dokument als .docx, läuft im Hintergrund mehr ab, als es scheint. Word erzeugt die einzelnen XML-Teile, schreibt den Text in document.xml, legt die Formatvorlagen in styles.xml ab, exportiert eingebettete Bilder in den Medienordner und verpackt alles in ein ZIP-Archiv. Dieser Vorgang ist deutlich strukturierter als beim alten .doc, bei dem ein einziger Binärstrom geschrieben wurde. Der modulare Aufbau hat einen angenehmen Nebeneffekt: Speichern und Öffnen großer Dokumente ist tendenziell schneller und stabiler, weil die Software gezielt einzelne Teile ansprechen kann, statt den gesamten Binärblock durchzugehen.
Praktische Empfehlung für Altbestände
Wer einen Ordner voller alter .doc-Dateien hat, etwa aus den 2000er-Jahren, sollte diese nicht ungeprüft liegen lassen. Word bietet eine Stapelkonvertierung über ein einfaches Makro, alternativ konvertiert LibreOffice ganze Verzeichnisse über die Kommandozeile. Der Aufwand lohnt sich, weil die Wahrscheinlichkeit steigt, dass künftige Software das alte Binärformat nicht mehr fehlerfrei öffnet. Eine in .docx überführte Datei lässt sich anschließend problemlos und sogar client-seitig in PDF wandeln, eine alte .doc nicht immer.
Zum Mitnehmen
Der Unterschied ist nicht nur kosmetisch: .doc ist ein altes, binäres und schwer zugängliches Format, .docx ein offener, robuster und maschinenlesbarer XML-Standard. Für jede moderne Verarbeitung, von der Archivierung bis zur PDF-Umwandlung, ist .docx die bessere Wahl. Alte .doc-Dateien sollten bei Gelegenheit konvertiert werden, bevor die Software, die sie noch lesen kann, endgültig verschwindet.
Quellen: ISO/IEC 29500; Microsoft Dokumentation "Word (.doc) Binary File Format"; Microsoft Support, Artikel zum Kompatibilitätsmodus.
Häufige Fragen