Linux - jak stáhnout kompletně celý web včetně podstránek a souborů

1 odpovědí
11.09.2018 napsal Gladiátor dotaz do kategorie linux 25 / 3

Linux - jak stáhnout kompletně celý web včetně podstránek a souborů

Vyřešeno

linux bash terminal www web wget

Ahoj, používám linux a chtěl bych stáhnout kompletní obsah nějaký web stránek na nějakých doménách. Potřebuji aby tam byly i podstránky včetně souborů na které se na tom webu odkazuje. Je na to nějaký balíček či nástroj pro linux?

12.09.2018 odpověděl OL3G Moderátor
Zkontrolováno

Ahoj,

kompletní obsah stránek lze stáhnout pomocí balíčku wget s parametrem "r"

wget -r poradna.superuser.cz
#hloubka stahování je default level 5

Další parametry:
-l10 - nastavit level 10
-k = předělat linky na lokální
-w 60 = timeout 60 vteřin mezi kroky
--user-agent="Mozilla/7.0***" = typ agenta Mozilla/7.0***
--mirror = zrcadelní webu (kopie, backup)
-p = stahovat pouze nutný obsah k fungování webu
-P /tmp/web = stahovat obsah do /tmp/web

wget -r -l inf -k --random-wait poradna.superuser.cz
#neomezený level, linky lokální, náhodný timeout

wget -A "*.jpg" -r poradna.superuser.cz
#stažení pouze souborů jpg

Pokud potřebuješ stahovat z nějakého webu, který umí detekovat zda jde požadavek přes wget či přes browser (prohlížeč), zpravidla když dochází k vykreslování javascriptem, tak můžeš použít phantomjs.

Tento web používá k poskytování služeb, personalizaci reklam a analýze návštěvnosti soubory cookie. Používáním tohoto webu s tím souhlasíte. Další informace