Kathrin: Word-Dateien (*.doc) in HTML umwandeln

Hi,

ich weiß, allein die Überschrift ist für viele ein Grund, die Hände über dem Kopf zusammenzuschlagen ;)

Ich programmiere ein Anwendung, die es vornehmlich EDV-unerfahrenen Usern ermöglichen soll, Grafiken, Bilder, Schriftstücke und Dokumente aller Art im Web zu publizieren - und eben auch Word-Dokumente.

Nach einigem Probieren und Testen haben sich zwei Möglichkeiten herauskristallisiert:

1. Möglichkeit:
Aufspielen des Word-Dokuments per simplen Fileupload auf den Server und serverseitig umwandeln:
Der Anwender spielt die Datei auf den Server, welcher ein Konvertierungstool startet und dann das Ergebnis als HTML-Datei darstellt. Unter http://www.wvware.com/wvWare.html oder http://word2x.alcom.co.uk/index.html sind solche Konvertierungsprogramme zu finden (wurden auch schon hier in Forumsbeiträgen erwähnt). Bei dieser Lösung muss der Anwender quasi nix denken, aber dafür ist das Konvertierungsergebnis umso grauenvoller. Selbst mit weniger komplexen Dokumenten sind nur schlechte Ergebnisse zu erzielen :(

2. Möglichkeit:
Der Anwender muss mehr denken, d. h. er speichert sein Word-Dokument als HTML-Datei ab (der Code sieht zwar grausam aus, aber die Webbrowser kommen damit klar). Neben der HTML-Datei werden weitere Dateien bzw. Unterverzeichnissse angelegt (ein *filelist.xml und für jede eingebettete Grafik eine Grafikdatei). Der Anwender muss jetzt also sehr umständlich viele Dateien bzw. Verzeichnisinhalte hochladen. Bei einem umfangreichen Dokument kommen schnell mal 20-30 Dateien zusammen.

Somit ergibt sich folgendes Dilemma:
die erste Möglichkeit ist sehr bedienerfreundlich (auch DAU-geeignet), hat aber ein inakzeptables Ergebnis,
die zweite Möglichkeit hat ein gutes Ergebnis, ist aber nur kompliziert und umständlich zu erreichen (ich rede aus der Sicht eines unversierten Anwenders und nicht aus der Sicht eines Technik-Freaks ;) )

Meine 'Lösungen' bzw. Fragen:
1.) Kennt jmd. ein Konvertierungsprogramm, welches akzeptable Ergebnisse hervorbringt ? (Ich denke an rel. einfache Word-Dokumente mit einfachen Tabellen, ein paar Grafiken, Aufzählungen, viel formatierter Text). Das Programm muss natürlich auf einem Linux-System laufen und per Kommandozeile bedienbar sein.

2.) Word speichert die HTML- bzw. Grafikdateien nach einer bestimmten Nomenklatur ab. Es ist einfach nur die Menge, die das ganze unhandlich werden lässt. Könnte man ein Java-Applet schreiben, das den Anwender auffordert, nur die eigentlich HTML-Datei auszuwählen. Die restlichen notwendigen Dateien sucht sich das Applet selbstständig zusammen und lädt sie auf den Server hoch. Das wäre quasi eine kleine 'Upload-Hilfe' nach dem Motto "Zeige mir eine Datei und ich kümmere mich dann um den Rest"

zu Hilfe ! ;)

Kathrin

  1. hi Kathrin,

    ich weiß, allein die Überschrift ist für viele ein Grund, die Hände über dem Kopf zusammenzuschlagen ;)

    Ist nur Beifall ;-)

    [...]

    Meine 'Lösungen' bzw. Fragen:
    1.) Kennt jmd. ein Konvertierungsprogramm, welches akzeptable Ergebnisse hervorbringt ? (Ich denke an rel. einfache Word-Dokumente mit einfachen Tabellen, ein paar Grafiken, Aufzählungen, viel formatierter Text). Das Programm muss natürlich auf einem Linux-System laufen und per Kommandozeile bedienbar sein.

    http://www.w3.org/People/Raggett/tidy/ bietet eine Option (Strip Word 2000 Surplus Tags, oder so ähnlich), die den ganzen Schrott aus Word-HTML entfernt. Es gibt unter anderem auch eine Linux-Version. http://perso.club-internet.fr/dpo/rpm/ dürfte auch interessant für Dich sein.

    2.) Word speichert die HTML- bzw. Grafikdateien nach einer bestimmten Nomenklatur ab. Es ist einfach nur die Menge, die das ganze unhandlich werden lässt. Könnte man ein Java-Applet schreiben, das den Anwender auffordert, nur die eigentlich HTML-Datei auszuwählen. Die restlichen notwendigen Dateien sucht sich das Applet selbstständig zusammen und lädt sie auf den Server hoch. Das wäre quasi eine kleine 'Upload-Hilfe' nach dem Motto "Zeige mir eine Datei und ich kümmere mich dann um den Rest"

    Ich spreche leider nicht Java...

    zu Hilfe ! ;)

    Tatütata!
    Orlando

  2. hallo,

    Ich programmiere ein Anwendung, die es vornehmlich EDV-unerfahrenen Usern ermöglichen soll, Grafiken, Bilder, Schriftstücke und Dokumente aller Art im Web zu publizieren - und eben auch Word-Dokumente.

    muss du das, oder machst freiwillig? das gibt schon eigentlich, teure und weniger teure programme.

    Meine 'Lösungen' bzw. Fragen:
    1.) Kennt jmd. ein Konvertierungsprogramm, welches akzeptable Ergebnisse hervorbringt ?

    du kannst schema markupkit nehmen, man kann ihn als plugin in word inkludieren und man kann dann word.docs z.B. in html abspeichern
    www.schema.de

    2.)

    sehr umständlich.

    Möglichkeit 3:
    deine anwendern schreiben ihre "word.docs" entweder in einem online editor: es gibt schon javaapplets  dafür, oder der dhtml editor von MS als grundlage nehmen.
    oder sie fügen en inhalt vom word.doc per copy & paste in so einem editor ein, der übernimmt dann die konvertierung.
    z.B: der ewebeditpro www.ektron.com

    Oder: du kannst auch upcast benützen www.infinity-loop.de der kann direkt aus word xhtml erstellen mit oder ohne css.

    grüße
    thomas