Benutzer-Werkzeuge

Webseiten-Werkzeuge


Seitenleiste

Software
Start


Publishing and more Haupt-Wiki


Hardware+Büroausstattung


Indexing



Office
Word - Excel - PowerPoint - LibreOffice/OpenOffice - Korrekturprogramme - SoftMaker/TextMaker - MathType - TeX/LaTeX


Notizen
Evernote - Obsidian
—-

Texteditoren
Notepad++ - Visual Studio Code - Markdown-Syntax


KI/Chatbots
Promptverwaltung


Datenbanken
FileMaker (FM) - FM-Fehlercodes - Ninox - smartsheet


Layout
FrameMaker - InDesign - XPress - Affinity Publisher - Scribus - Markstein Tango - Umrechnung pt in mm und cm


Bild-/Grafik-/Video-bearbeitung
Photoshop - Illustrator - Movavi - EPS-Konvertierung


PDF
PDF allgemein - Acrobat/PDF - AcrobatAlternativen - PDF-XChange
- Autobookmark
- PitStop


Indexing
Indexing Softw.allg. - QuIndex - Cindex - Picardy - SkyIndex - Index-Manager - Textract
- HTML Indexer


Cloud Computing
GoogleDocs - GoogleSpreadsheet - AdobeDocumentCloud - AdobeTables - MicrosoftOneDrive


Synology
Datensicherung


E-Books/iPad
EBooks allgemein - EBook-Formatierung - Calibre - Sigil - Jutoh - Von Word zu HTML/EPUB - iPad


WordPress
Allgemein - PlugIns - Umhängen - Wiederherstellen - Tipps und Tricks
- Linkchecker


Moodle
Videos einbauen


Video-Hosting
Vimeo-Videos teilen
Videolyser


CMS/CSS/HTML
CMS - CSS - HTML


Python
Grundlagen - CMS


XML/XSL/XSD
XML - XSL - XSD


Kommunikation/Remote
VPN - Remote - Linkchecker - Thunderbird - Wire


Buchhaltung
E-Rechnung


Tools
MacroExpress - ZIP/RAR - Commander-Progr. - CCleaner
- GeekUninstaller


Betriebssystem
Win allgemein - Zwischenablage - Tuning


Theorie
RTF-Codes - ANSI - Unicode - Umrechnung Hexadezimal- in Dezimalcode



Hilfe
- Eigenes Handbuch
- DokuWiki Handbuch
- Formatierungen
- Highlighten
- Namensräume

ebook:word2cleanhtml

Dies ist eine alte Version des Dokuments!


Von Word zu HTML (und letztlich zu XHTML)

Es gibt mehrere Möglichkeiten, aus einer .docx-Datei eine saubere .html-Datei zu erhalten:

  1. Mammoth-DOCX-Converter: Hierbei handelt es sich um ein WordPress-Plugin. Näheres zu finden bei https://www.wgv-projekte.de/pam-intrawiki_software/doku.php?id=wp:plugins#mammoth_docx_converter
  2. Word to Clean HTML: Hierbei handelt es sich um eine Website (https://word2cleanhtml.com/), in die das HTML, das man mit Word erzeugt hat (Speichern unter - HTML), einladen kann. Der HTML-Code wird dann auf Knopfdruck bereinigt:
  • Leerzeilen werden entfernt.
  • Ersetzt werden
    • <b> durch <strong>, <i> durch >em>
    • Nicht-ASCII-Zeichen durch HTML-Entitäten
    • typografische Anführungszeichen durch ihre ASCII-Äquivalente
    • feste Leerzeichen durch normale Leerzeichen.
  • Einzüge werden mit Tabulatoren erzeugt, nicht mit Leerzeichen.

Das Tool schafft allerdings nur kleine Textmengen auf einmal (noch nicht herausgefunden, welche Mengen).

ebook/word2cleanhtml.1751293060.txt.gz · Zuletzt geändert: 2025/06/30 16:17 von walter