Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende Überarbeitung | ||
ebook:word2cleanhtml [2025/06/30 16:16] walter |
ebook:word2cleanhtml [2025/07/01 14:48] (aktuell) walter [Einsatz von Sigil] |
||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
- | ====== Word to Clean HTML ====== | + | ====== Von Word zu HTML (und letztlich zu XHTML und damit zu EPUB) ====== |
- | Es gibt mehrere Möglichkeiten, aus einer .docx-Datei eine saubere .html-Datei zu erhalten: | + | Aus meiner Erfahrung gibt es die folgenden Wege, von Word zu einem EPUB zu kommen: |
- | - Mammoth-DOCX-Converter: Hierbei handelt es sich um ein WordPress-Plugin. Näheres zu finden bei [[https://www.wgv-projekte.de/pam-intrawiki_software/doku.php?id=wp:plugins#mammoth_docx_converter]] | + | ===== A Über HTML ===== |
+ | *Word -> HTML, dies Öffnen mit HTML-Programm (z. B. KompoZer, https://kompozer.de.softonic.com/download), hier Bereinigung und Vorbereitung des CSS, dann Import in EPUB-Programm; erhalten bleiben Fuß-/Endnoten und Verlinkungen, verloren gehen Querverweise und Indexeinträge | ||
+ | *Überlegenswert ist eine Vorbereitung der HTML-Konvertierung mit dem Tool Mammoth .docx to HTML converter; allerdings gehen dabei ebenfalls Querverweise und Indexeinträge verloren; einfachster Nutzungsweg über WordPress; Näheres zu finden bei [[https://www.wgv-projekte.de/pam-intrawiki_software/doku.php?id=wp:plugins#mammoth_docx_converter]] | ||
+ | *Achtung: spezielle Bereinigungsprogramme wie Word to Clean HTML (nur über Website verwendbar: https://word2cleanhtml.com/) sind nicht zu empfehlen, weil sie wie eine Blackbox arbeiten und nicht mehr können als übliche HTML-Programme | ||
+ | ===== B Über andere Textverarbeitungs- oder Layoutprogramme ===== | ||
+ | *Word -> LibreOffice Writer, dann direkter EPUB-Export; erhalten bleiben Fuß-/Endnoten und Verlinkungen, verloren gehen Querverweise und Indexeinträge | ||
+ | *Word -> GoogleDocs, dann direkter EPUB-Export; erhalten bleiben Fuß-/Endnoten und Verlinkungen, verloren gehen Querverweise und Indexeinträge | ||
+ | *Word -> Papyrus Autor, dann direkter EPUB-Export; erhalten bleiben Fuß-/Endnoten und Verlinkungen, verloren gehen Querverweise und Indexeinträge | ||
+ | *Word -> TextMaker, dann direkter EPUB-Export; erhalten bleiben Fuß-/Endnoten und Verlinkungen, verloren gehen Querverweise und Indexeinträge | ||
+ | *Word -> InDesign, dann direkter EPUB-Export (publikationsreif); erhalten bleiben Fuß-/Endnoten, Verlinkungen und Indexeinträge, verloren gehen Querverweise | ||
+ | *Word -> FrameMaker, dann direkter EPUB-Export (publikationsreif); erhalten bleiben Fuß-/Endnoten, Verlinkungen und Indexeinträge, verloren gehen Querverweise | ||
+ | ===== C Über EPUB-Programme ===== | ||
+ | *Word -> Jutoh (https://www.jutoh.com/), hier Weiterverarbeitung und EPUB-Check; dann Publikation; erhalten bleiben Fuß-/Endnoten, Verlinkungen, Indexeinträge und Querverweise | ||
+ | *Word -> Calibre (https://calibre-ebook.com/download), hier Weiterverarbeitung und EPUB-Check; dann Publikation; erhalten bleiben Fuß-/Endnoten, Verlinkungen und Querverweise; verloren gehen Indexeinträge | ||
- | - Word to Clean HTML: Hierbei handelt es sich um eine Website (https://word2cleanhtml.com/), in die das HTML, das man mit Word erzeugt hat (Speichern unter - HTML), einladen kann. Der HTML-Code wird dann auf Knopfdruck bereinigt: | + | ===== Wenn es um den Erhalt von Indexeinträgen geht, bleiben nur drei Möglichkeiten ===== |
- | * Leerzeilen werden entfernt. | + | *Word -> Jutoh, hier Weiterverarbeitung und EPUB-Check; dann Publikation |
- | * Ersetzt werden | + | *Word -> InDesign, hier Weiterverarbeitung und EPUB-Check; dann Publikation |
- | * <b> durch <strong>, <i> durch >em> | + | *Word -> FrameMaker, hier Weiterverarbeitung und EPUB-Check; dann Publikation |
- | * Nicht-ASCII-Zeichen durch HTML-Entitäten | + | |
- | * typografische Anführungszeichen durch ihre ASCII-Äquivalente | + | |
- | * feste Leerzeichen durch normale Leerzeichen. | + | |
- | * Einzüge werden mit Tabulatoren erzeugt, nicht mit Leerzeichen. | + | |
- | Das Tool schafft allerdings nur kleine Textmengen auf einmal (noch nicht herausgefunden, welche Mengen). | + | ===== Fazit ===== |
+ | **Das einzige Programm, das Word-Dateien in EPUB konvertieren kann und dabei sämtliche Merkmale erhält, ist Jutoh.** | ||
+ | |||
+ | ===== Einsatz von Sigil ===== | ||
+ | |||
+ | **Es empfiehlt sich, //Sigil// (https://sigil-ebook.com/) als letzte Instanz vor der Publikation zu verwenden**, egal, wie man zum EPUB gekommen ist. Nur in Sigil lässt sich //alles//, was zu einem E-Book dazu gehört, überarbeiten. Voraussetzung ist allerdings, dass z. B. auf dem Weg über Jutoh alle Merkmale einer Word-Datei korrekt konvertiert wurden. Ein direktes Einladen von .docx-Dateien in Sigil ist nicht möglich. | ||
+ | |||
+ | Möglich wäre etwas anderes: der Aufbau einer EPUB-Datei von Grund auf. |