Domovská » jak » Vytvořte plánovač stahování s malou programovací schopností

    Vytvořte plánovač stahování s malou programovací schopností

    My všichni rádi stahujeme věci z internetu a existují spousty skvělých nástrojů ke stažení, které můžeme použít k naplánování našich stahování. Možná by bylo jednodušší používat správce stahování, ale není to škoda při zkoumání nástrojů, které již přichází s naším Ubuntu, a plně využít toho.

    V tomto článku vám ukážeme vestavěný software v Ubuntu, který můžeme použít ke stahování věcí z internetu wget. Kromě toho vám ukážeme, jak naplánovat stahování pomocí Cronu.

    Stažení pomocí Wget

    Wget je bezplatný softwarový balík pro načítání souborů pomocí HTTP, HTTPS a FTP, nejrozšířenějších internetových protokolů. Jedná se o neinteraktivní nástroj příkazové řádky, takže jej lze snadno volat ze skriptů, úloh typu cron, terminálů bez podpory X-Windows atd..

    Otevřete svůj terminál a prozkoumejte, jak pomocí wget stahovat věci z sítě. Základní syntaxe stahování pomocí nástroje wget je následující:

    wget [volba] ... [URL] ...

    Tento příkaz stáhne příručku wget do místní jednotky

    wget http://www.gnu.org/software/wget/manual/wget.pdf

    Linux Cron

    Ubuntu přichází s démonem cron používaným pro plánování úkolů, které mají být provedeny v určitou dobu. Crontab umožňuje určit akce a časy, které by měly být provedeny. Takto byste normálně naplánovali úlohu pomocí nástroje příkazového řádku.

    Otevřete okno terminálu a zadejte příkaz crontab -e.

    Každá z částí v crontabu je oddělena mezerou, přičemž poslední část obsahuje jeden nebo více mezery. Položka cron se skládá z minut (0-59), hodiny (0-23, 0 = půlnoc), den (1-31), měsíc (1-12), den v týdnu (0-6, 0 = neděle). Třetí položka ve výše uvedeném souboru crontab ke stažení wget.pdf o 2:00. První položka (0) a druhá položka (2) znamenají 2:00. Třetí až pátý záznam (*) znamená jakoukoli denní dobu, měsíc nebo týden. Poslední položkou je příkaz wget, který si stáhne soubor wget.pdf ze zadané adresy URL.

    To je základní informace o Wget a o tom, jak Cron funguje. Vezměme si kořist v příkladu skutečného života, jak naplánovat stahování.

    Plánování stahování

    Budeme stahovat Firefox 3.6 ve 2:00. Protože náš ISP poskytuje pouze omezené množství dat, musíme zastavit stahování v 8 hodin. Toto nastavení vypadá.

    Ignorujte první 2 položky ve výše uvedeném crontabu. Třetí a čtvrtý příkaz jsou pouze 2 příkazy, které potřebujete. Třetí příkaz nastaví úkol, který bude stahovat Firefox ve 2:00:

    [kód]
    0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=cs
    [/kód]

    Možnosti -c označují, že wget by měl obnovit stávající stahování, pokud nebylo dokončeno.

    Čtvrtý příkaz zastaví Wget v 8 hodin ráno. 'Killall' je příkaz unix, který zabíjí podle jména.

    [kód]
    0 8 * * * killall wget
    [/kód]

    Killall wget říká Ubuntu, aby zastavil wget ze stahování souboru v 8 hodin.

    Další užitečné příkazy wget

    1. Určení adresáře pro stažení souboru

    [kód]
    wget -output-document = / home / zainul / Ke stažení / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
    [/kód]

    volba -output-document umožňuje zadat adresář a název souboru, který stáhnete

    2. Stažení webových stránek

    wget je také schopen stáhnout webové stránky.

    [kód]
    wget -m http://www.google.com/profiles/zainul.franciscus
    [/kód]

    Příkaz uvedeným výše stahuje celou webovou stránku profilu google. Možnost '-m' informuje wget, že si stáhne zrcadlový obrázek zadané adresy URL.

    Další důležitou možností je říct wget, kolik odkazů by mělo být při stahování webových stránek.

    [kód]
    wget -r -l1 http://www.google.com/profiles/zainul.franciscus
    [/kód]

    Výše uvedený příkaz wget používá dvě možnosti. První možnost '-r' řekne společnosti Wget, že rekurzivně stáhne daný web. Druhá volba '-l1' říká Wget, že získá pouze první úroveň odkazů z uvedené webové stránky. Můžeme nastavit až tři úrovně '-l2' a '-l3'.

    3. Ignorování vstupu robota

    Webmaster udržuje textový soubor s názvem Robot.txt. 'Robot.txt' udržuje seznam adres URL, který by prohledávač webových stránek, jako je wget, neměl procházet. Můžeme říci, že wget ignoruje možnost 'Robot.txt' s volbou '-erobots = off'. Následující příkaz informuje wget, že stáhne první stránku mého google profilu a ignoruje soubor Robot.txt.

    [kód]
    wget -erobots = vypnuto http://www.google.com/profiles/zainul.franciscus
    [/kód]

    Další užitečnou volbou je -U. Tato volba maskuje wget jako prohlížeč. Vezměte na vědomí, že maskování aplikace jako jiné aplikace může porušovat pojem a servis poskytovatele webových služeb.

    [kód]
    wget -erobots = vypnuto -U Mozilla http://www.google.com/profiles/zainul.franciscus
    [/kód]

    Závěr

    Wget je velmi stará škola, která však hackletuje softwarový balík GNU, který můžeme použít ke stahování souborů. Wget je interaktivní nástroj příkazového řádku, což znamená, že jej můžeme nechat běžet v našem počítači na pozadí bez nutnosti spouštět žádnou aplikaci. Podívejte se na stránku manga wget

    [kód]
    $ man wget
    [/kód]

    porozumět dalším možnostem, které můžeme použít s wget.

    Odkazy

    Wget Manual
    Jak kombinovat dva stažené soubory, když wget selže v polovině cesty
    Linux QuickTip: stahování a un-tarring v jednom kroku