Benutzer-Werkzeuge

Webseiten-Werkzeuge


ebook:word2cleanhtml

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen Revision Vorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
ebook:word2cleanhtml [2025/06/30 16:17]
walter
ebook:word2cleanhtml [2025/07/01 14:48] (aktuell)
walter [Einsatz von Sigil]
Zeile 1: Zeile 1:
-====== Von Word zu HTML (und letztlich zu XHTML) ====== +====== Von Word zu HTML (und letztlich zu XHTML und damit zu EPUB) ====== 
-Es gibt mehrere Möglichkeitenaus einer .docx-Datei eine saubere .html-Datei ​zu erhalten:+Aus meiner Erfahrung ​gibt es die folgenden Wegevon Word zu einem EPUB zu kommen
  
-  - **Mammoth-DOCX-Converter**:​ Hierbei handelt es sich um ein WordPress-Plugin. Näheres zu finden bei [[https://​www.wgv-projekte.de/​pam-intrawiki_software/​doku.php?​id=wp:​plugins#​mammoth_docx_converter]]+===== A Über HTML =====
  
 +  *Word -> HTML, dies Öffnen mit HTML-Programm (z. B. KompoZer, https://​kompozer.de.softonic.com/​download),​ hier Bereinigung und Vorbereitung des CSS, dann Import in EPUB-Programm;​ erhalten bleiben Fuß-/​Endnoten und Verlinkungen,​ verloren gehen Querverweise und Indexeinträge
 +  *Überlegenswert ist eine Vorbereitung der HTML-Konvertierung mit dem Tool Mammoth .docx to HTML converter; allerdings gehen dabei ebenfalls Querverweise und Indexeinträge verloren; einfachster Nutzungsweg über WordPress; Näheres zu finden bei [[https://​www.wgv-projekte.de/​pam-intrawiki_software/​doku.php?​id=wp:​plugins#​mammoth_docx_converter]] ​
 +  *Achtung: spezielle Bereinigungsprogramme wie Word to Clean HTML (nur über Website verwendbar: ​ https://​word2cleanhtml.com/​) sind nicht zu empfehlen, weil sie wie eine Blackbox arbeiten und nicht mehr können als übliche HTML-Programme
 +===== B Über andere Textverarbeitungs- oder Layoutprogramme =====
  
 +  *Word -> LibreOffice Writer, dann direkter EPUB-Export;​ erhalten bleiben Fuß-/​Endnoten und Verlinkungen,​ verloren gehen Querverweise und Indexeinträge ​
 +  *Word -> GoogleDocs, dann direkter EPUB-Export;​ erhalten bleiben Fuß-/​Endnoten und Verlinkungen,​ verloren gehen Querverweise und Indexeinträge ​
 +  *Word -> Papyrus Autor, dann direkter EPUB-Export;​ erhalten bleiben Fuß-/​Endnoten und Verlinkungen,​ verloren gehen Querverweise und Indexeinträge ​
 +  *Word -> TextMaker, dann direkter EPUB-Export;​ erhalten bleiben Fuß-/​Endnoten und Verlinkungen,​ verloren gehen Querverweise und Indexeinträge ​
 +  *Word -> InDesign, dann direkter EPUB-Export (publikationsreif);​ erhalten bleiben Fuß-/​Endnoten,​ Verlinkungen und Indexeinträge,​ verloren gehen Querverweise
 +  *Word -> FrameMaker, dann direkter EPUB-Export (publikationsreif);​ erhalten bleiben Fuß-/​Endnoten,​ Verlinkungen und Indexeinträge,​ verloren gehen Querverweise
 +===== C Über EPUB-Programme =====
  
 +  *Word -> Jutoh (https://​www.jutoh.com/​),​ hier Weiterverarbeitung und EPUB-Check; dann Publikation;​ erhalten bleiben Fuß-/​Endnoten,​ Verlinkungen,​ Indexeinträge und Querverweise
 +  *Word -> Calibre (https://​calibre-ebook.com/​download),​ hier Weiterverarbeitung und EPUB-Check; dann Publikation;​ erhalten bleiben Fuß-/​Endnoten,​ Verlinkungen und Querverweise;​ verloren gehen Indexeinträge
  
-  - **Word to Clean HTML**: Hierbei handelt ​es sich um eine Website (https://​word2cleanhtml.com/​)in die das HTML, das man mit Word erzeugt hat (Speichern unter HTML)einladen kann. Der HTML-Code wird dann auf Knopfdruck bereinigt: +===== Wenn es um den Erhalt von Indexeinträgen gehtbleiben nur drei Möglichkeiten ===== 
-  * Leerzeilen werden entfernt. +  *Word -> Jutohhier Weiterverarbeitung und EPUB-Check; ​dann Publikation 
-  * Ersetzt werden  +  *Word -InDesignhier Weiterverarbeitung und EPUB-Check; dann Publikation 
-    * <b> durch <strong>, <i> durch >​em>​ +  *Word -> FrameMakerhier Weiterverarbeitung und EPUB-Check; dann Publikation
-    * Nicht-ASCII-Zeichen durch HTML-Entitäten +
-    typografische Anführungszeichen durch ihre ASCII-Äquivalente +
-    * feste Leerzeichen durch normale Leerzeichen. +
-  * Einzüge werden mit Tabulatoren erzeugtnicht mit Leerzeichen.+
  
-Das Tool schafft ​allerdings ​nur kleine Textmengen ​auf einmal (noch nicht herausgefunden,​ welche Mengen).+===== Fazit ===== 
 +**Das einzige Programm, das Word-Dateien in EPUB konvertieren kann und dabei sämtliche Merkmale erhält, ist Jutoh.** 
 + 
 +===== Einsatz von Sigil ===== 
 + 
 +**Es empfiehlt sich, //Sigil// (https://​sigil-ebook.com/​) als letzte Instanz vor der Publikation zu verwenden**,​ egal, wie man zum EPUB gekommen ist. Nur in Sigil lässt sich //alles//, was zu einem E-Book dazu gehört, überarbeiten. Voraussetzung ist allerdings, dass z. B. auf dem Weg über Jutoh alle Merkmale einer Word-Datei korrekt konvertiert wurden. Ein direktes Einladen von .docx-Dateien in Sigil ist nicht möglich. 
 + 
 +Möglich wäre etwas anderes: der Aufbau einer EPUB-Datei von Grund auf
ebook/word2cleanhtml.1751293030.txt.gz · Zuletzt geändert: 2025/06/30 16:17 von walter