Linux - jak stáhnout kompletně celý web včetně podstránek a souborů

1 odpovědí
11.09.2018 napsal Gladiátor dotaz do kategorie linux
31 / 16
linux

Linux - jak stáhnout kompletně celý web včetně podstránek a souborů

Vyřešeno

linux bash terminal www web wget

Ahoj, používám linux a chtěl bych stáhnout kompletní obsah nějaký web stránek na nějakých doménách. Potřebuji aby tam byly i podstránky včetně souborů na které se na tom webu odkazuje. Je na to nějaký balíček či nástroj pro linux?

12.09.2018 odpověděl OL3G Moderátor
[1]
Zkontrolováno

Ahoj,

kompletní obsah stránek lze stáhnout pomocí balíčku wget s parametrem "r"

wget -r superuser.cz
#hloubka stahování je default level 5

Další parametry:
-l10 - nastavit level 10
-k = předělat linky na lokální
-w 60 = timeout 60 vteřin mezi kroky
--user-agent="Mozilla/7.0***" = typ agenta Mozilla/7.0***
--mirror = zrcadelní webu (kopie, backup)
-p = stahovat pouze nutný obsah k fungování webu
-P /tmp/web = stahovat obsah do /tmp/web

wget -r -l inf -k --random-wait superuser.cz
#neomezený level, linky lokální, náhodný timeout

wget -r -l inf -k --no-parent superuser.cz/podstranka
#neomezený level, linky lokální, stahovat pouze obsah podstránky (bez rootu, jen /podstranka (subdir, sublink))

wget -A "*.jpg" -r superuser.cz
#stažení pouze souborů jpg

Pokud potřebuješ stahovat z nějakého webu, který umí detekovat zda jde požadavek přes wget či přes browser (prohlížeč), zpravidla když dochází k vykreslování javascriptem, tak můžeš použít phantomjs.

Tento web používá k poskytování služeb, personalizaci reklam a analýze návštěvnosti soubory cookie. Používáním tohoto webu s tím souhlasíte. Další informace