Benutzer-Werkzeuge

Webseiten-Werkzeuge


ebook:word2cleanhtml

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
ebook:word2cleanhtml [2025/06/30 16:17]
walter
ebook:word2cleanhtml [2025/07/01 14:48] (aktuell)
walter [Einsatz von Sigil]
Zeile 1: Zeile 1:
-====== Von Word zu HTML (und letztlich zu XHTML) ====== +====== Von Word zu HTML (und letztlich zu XHTML und damit zu EPUB) ====== 
-Es gibt mehrere Möglichkeitenaus einer .docx-Datei eine saubere .html-Datei ​zu erhalten:+Aus meiner Erfahrung ​gibt es die folgenden Wegevon Word zu einem EPUB zu kommen
  
-  - **Mammoth-DOCX-Converter**:​ Hierbei handelt es sich um ein WordPress-Plugin. Näheres zu finden bei [[https://​www.wgv-projekte.de/​pam-intrawiki_software/​doku.php?​id=wp:​plugins#​mammoth_docx_converter]] +===== A Über HTML =====
-  - **Word to Clean HTML**: Hierbei handelt es sich um eine Website (https://​word2cleanhtml.com/​),​ in die das HTML, das man mit Word erzeugt hat (Speichern unter - HTML), einladen kann. Der HTML-Code wird dann auf Knopfdruck bereinigt:​ +
-  * Leerzeilen werden entfernt. +
-  * Ersetzt werden  +
-    * <b> durch <​strong>,​ <i> durch >​em>​ +
-    * Nicht-ASCII-Zeichen durch HTML-Entitäten +
-    * typografische Anführungszeichen durch ihre ASCII-Äquivalente +
-    * feste Leerzeichen durch normale Leerzeichen. +
-  * Einzüge werden mit Tabulatoren erzeugt, nicht mit Leerzeichen.+
  
-Das Tool schafft ​allerdings ​nur kleine Textmengen auf einmal ​(noch nicht herausgefundenwelche Mengen).+  *Word -> HTML, dies Öffnen mit HTML-Programm (z. B. KompoZer, https://​kompozer.de.softonic.com/​download),​ hier Bereinigung und Vorbereitung des CSS, dann Import in EPUB-Programm;​ erhalten bleiben Fuß-/​Endnoten und Verlinkungen,​ verloren gehen Querverweise und Indexeinträge 
 +  *Überlegenswert ist eine Vorbereitung der HTML-Konvertierung mit dem Tool Mammoth .docx to HTML converter; ​allerdings ​gehen dabei ebenfalls Querverweise und Indexeinträge verloren; einfachster Nutzungsweg über WordPress; Näheres zu finden bei [[https://​www.wgv-projekte.de/​pam-intrawiki_software/​doku.php?​id=wp:​plugins#​mammoth_docx_converter]]  
 +  *Achtung: spezielle Bereinigungsprogramme wie Word to Clean HTML (nur über Website verwendbar: ​ https://​word2cleanhtml.com/​) sind nicht zu empfehlenweil sie wie eine Blackbox arbeiten und nicht mehr können als übliche HTML-Programme 
 +===== B Über andere Textverarbeitungs- oder Layoutprogramme ===== 
 + 
 +  *Word -> LibreOffice Writer, dann direkter EPUB-Export;​ erhalten bleiben Fuß-/​Endnoten und Verlinkungen,​ verloren gehen Querverweise und Indexeinträge  
 +  *Word -> GoogleDocs, dann direkter EPUB-Export;​ erhalten bleiben Fuß-/​Endnoten und Verlinkungen,​ verloren gehen Querverweise und Indexeinträge  
 +  *Word -> Papyrus Autor, dann direkter EPUB-Export;​ erhalten bleiben Fuß-/​Endnoten und Verlinkungen,​ verloren gehen Querverweise und Indexeinträge  
 +  *Word -> TextMaker, dann direkter EPUB-Export;​ erhalten bleiben Fuß-/​Endnoten und Verlinkungen,​ verloren gehen Querverweise und Indexeinträge  
 +  *Word -> InDesign, dann direkter EPUB-Export (publikationsreif); erhalten bleiben Fuß-/​Endnoten,​ Verlinkungen und Indexeinträge,​ verloren gehen Querverweise 
 +  *Word -> FrameMaker, dann direkter EPUB-Export (publikationsreif);​ erhalten bleiben Fuß-/​Endnoten,​ Verlinkungen und Indexeinträge,​ verloren gehen Querverweise 
 +===== C Über EPUB-Programme ===== 
 + 
 +  *Word -> Jutoh (https://​www.jutoh.com/​),​ hier Weiterverarbeitung und EPUB-Check; dann Publikation;​ erhalten bleiben Fuß-/​Endnoten,​ Verlinkungen,​ Indexeinträge und Querverweise 
 +  *Word -> Calibre (https://​calibre-ebook.com/​download),​ hier Weiterverarbeitung und EPUB-Check; dann Publikation;​ erhalten bleiben Fuß-/​Endnoten,​ Verlinkungen und Querverweise;​ verloren gehen Indexeinträge 
 + 
 +===== Wenn es um den Erhalt von Indexeinträgen geht, bleiben nur drei Möglichkeiten ===== 
 +  *Word -> Jutoh, hier Weiterverarbeitung und EPUB-Check; dann Publikation 
 +  *Word -> InDesign, hier Weiterverarbeitung und EPUB-Check; dann Publikation 
 +  *Word -> FrameMaker, hier Weiterverarbeitung und EPUB-Check; dann Publikation 
 + 
 +===== Fazit ===== 
 +**Das einzige Programm, das Word-Dateien in EPUB konvertieren kann und dabei sämtliche Merkmale erhält, ist Jutoh.** 
 + 
 +===== Einsatz von Sigil ===== 
 + 
 +**Es empfiehlt sich, //Sigil// (https://​sigil-ebook.com/​) als letzte Instanz vor der Publikation zu verwenden**,​ egal, wie man zum EPUB gekommen ist. Nur in Sigil lässt sich //alles//, was zu einem E-Book dazu gehört, überarbeiten. Voraussetzung ist allerdings, dass z. B. auf dem Weg über Jutoh alle Merkmale einer Word-Datei korrekt konvertiert wurden. Ein direktes Einladen von .docx-Dateien in Sigil ist nicht möglich. 
 + 
 +Möglich wäre etwas anderes: der Aufbau einer EPUB-Datei von Grund auf
ebook/word2cleanhtml.1751293060.txt.gz · Zuletzt geändert: 2025/06/30 16:17 von walter