Der folgende Beitrag wurde am 01. 05. 2008, 16:12 Uhr von Anja veröffentlicht.
Hi,
wie kann ich (unter Linux) am einfachsten eine Liste aller Unterseiten einer Domain erstellen, welche durch einen rekursiven Crawler, wie es mit wget möglich ist, erstellen?
Wget kann die Seite quasi spiegeln... für meinen Fall kann es die einzelnen Seiten (Kontents) im Cache lassen da mir bereits die Liste der URLs genügt...
Wünsch noch einen schönen Feiertag euch allen.
Der folgende Beitrag wurde am 02. 05. 2008, 09:34 Uhr von seth veröffentlicht.
gudn tach!
> wie kann ich (unter Linux) am einfachsten eine Liste aller Unterseiten einer Domain erstellen
mit wget und grep.
oder was meinst du?
prost
seth
Der folgende Beitrag wurde am 02. 05. 2008, 13:55 Uhr von LX veröffentlicht.
Hi,
da Du die Seiten ohnehin parsen musst, bleibt Dir nichts anderes übrig, als sie auch zu laden. Die wget-Option --delete-after hilft aber, dass wget keine Datein übrig läßt - dann brauchst Du nur noch die Ausgabe von wget entsprechend mit sed oder grep zu parsen.
Gruß, LX
© 1998-2013 SELFHTMLImpressumSoftware: Classic Forum 3.4