Teil von SELFHTML Forum Teil von SELFHTML Forumsarchiv Teil von 2001 Teil von November

SELFHTML Forumsarchiv
Modul für HTML->Text

Informationsseite
  1. Seite (PERL) Modul für HTML->Text von Chris, 29. 11. 2001, 18:12
nach unten

Modul für HTML->Text

Die folgende Nachricht zum Thema stammt von: Chris, 29. 11. 2001, 18:12

Hi,

ich suche ein Modul, das HTML in Plaintext konvertiert. Und zwar nicht
nur einfach alle Tags rauswirft, sondern versucht solche Formatierungen
wie Listen, Tabellen und Absätze am Leben zu erhalten.

Im CPAN habe ich leider nur was für den umgekehrten Weg (HTML::FromText)
gefunden.

TIA

Chris

nach obennach unten

Modul für HTML->Text

Die folgende Nachricht zum Thema stammt von: crunch, 30. 11. 2001, 15:44

Hi,

»» ich suche ein Modul, das HTML in Plaintext konvertiert. Und zwar nicht
»» nur einfach alle Tags rauswirft, sondern versucht solche Formatierungen
»» wie Listen, Tabellen und Absätze am Leben zu erhalten.

»» Im CPAN habe ich leider nur was für den umgekehrten Weg (HTML::FromText)
»» gefunden.

Eine Möglichkeit wäre HTML::Parse in Verbindung mit HTML::FormatText. Funktioniert recht einfach, hat aber den Nachteil, dass keine Tabellen geparst werden. Dabei bekommst du nur ein unschönes [Table not shown], was bei manchen Seiten dann den kompletten Inhalt ausmacht, da alles in Tabellen verpackt ist.

Falls dich das nicht stört, gehts wie folgt:

use HTML::Parse;
use HTML::FormatText;
$text = HTML::FormatText->new->format(parse_html($html_string));

Grüße,
Crunch

nach oben
Teil von SELFHTML Forum Teil von SELFHTML Forumsarchiv Teil von 2001 Teil von November

© 1998-2008 Seite Impressum, Software: Classic Forum