Construire un planificateur de téléchargement avec une petite compétence de programmation
Nous aimons tous télécharger des fichiers sur Internet, et il existe une multitude d'excellents outils de gestion des téléchargements que nous pouvons utiliser pour planifier nos téléchargements. Il est peut-être plus simple d’utiliser un gestionnaire de téléchargement, mais il n’ya pas de mal à explorer les outils déjà fournis avec Ubuntu et à en faire pleinement usage..
Dans cet article, nous allons vous montrer un logiciel intégré à Ubuntu que nous pouvons utiliser pour télécharger des fichiers sur Internet à l'aide de wget. En plus de cela, nous allons vous montrer comment planifier le téléchargement en utilisant Cron.
Télécharger en utilisant Wget
Wget est un logiciel gratuit permettant de récupérer des fichiers via HTTP, HTTPS et FTP, les protocoles Internet les plus utilisés. C'est un outil de ligne de commande non interactif, il peut donc être facilement appelé à partir de scripts, de tâches cron, de terminaux sans prise en charge de X-Windows, etc..
Ouvrez votre terminal et voyons comment nous pouvons utiliser wget pour télécharger des contenus sur le net. La syntaxe de base du téléchargement avec wget est la suivante:
wget [option]… [URL]…
Cette commande téléchargera le manuel wget sur votre lecteur local.
wget http://www.gnu.org/software/wget/manual/wget.pdf
Linux Cron
Ubuntu est livré avec un démon cron utilisé pour planifier l'exécution de tâches à un moment donné. Crontab vous permet de spécifier des actions et des moments où elles doivent être exécutées. Voici comment vous devriez normalement planifier une tâche à l'aide de l'outil de ligne de commande..
Ouvrez une fenêtre de terminal et entrez crontab -e.
Chacune des sections d'une crontab est séparée par un espace, la dernière section contenant un ou plusieurs espaces. Une entrée cron consiste en minute (0-59), heure (0-23, 0 = minuit), jour (1-31), mois (1-12), jour de la semaine (0-6, 0 = dimanche), commande. La troisième entrée de la crontab ci-dessus télécharge wget.pdf à 2 heures du matin. La première entrée (0) et la deuxième entrée (2) signifient 2h00. La troisième à la cinquième entrée (*) signifie n'importe quelle heure du jour, du mois ou de la semaine. La dernière entrée est la commande wget pour télécharger le fichier wget.pdf à partir de l'URL spécifiée..
C'est la base sur wget et comment fonctionne Cron. Prenons un exemple concret sur la planification d'un téléchargement..
Planification Télécharger
Nous allons télécharger Firefox 3.6 à 2 heures du matin. Comme notre fournisseur d’accès ne fournit qu’une quantité limitée de données, nous devons arrêter le téléchargement à 8 heures du matin. Voici à quoi ressemble l'installation.
Ignorez les 2 premières entrées de la crontab ci-dessus. Les troisième et quatrième commandes sont les 2 seules commandes dont vous avez besoin. La troisième commande configure une tâche qui téléchargera Firefox à 2 heures du matin:
[code]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=fr
[/code]
Les options -c indiquent que wget devrait reprendre le téléchargement existant s'il n'a pas été terminé.
La quatrième commande s'arrêtera à 8 heures. 'Killall' est une commande unix qui tue les processus par leur nom.
[code]
0 8 * * * killall wget
[/code]
Le killall wget dit à Ubuntu d'arrêter le téléchargement du fichier par wget à 8 heures..
Autres commandes utiles de wget
1. Spécifier le répertoire pour télécharger un fichier
[code]
wget -output-document = / home / zainul / Téléchargements / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/code]
l'option -output-document vous permet de spécifier le répertoire et le nom du fichier que vous téléchargez
2. Télécharger un site web
wget est également capable de télécharger un site web.
[code]
wget -m http://www.google.com/profiles/zainul.franciscus
[/code]
La commande ci-dessus va télécharger toute ma page Web de profil Google. L'option '-m' indique à wget de télécharger une image 'miroir' de l'URL spécifiée.
Une autre option importante consiste à indiquer à wget combien de liens il doit suivre lorsqu'il télécharge un site Web..
[code]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/code]
La commande wget ci-dessus utilise deux options. La première option '-r' indique à wget de télécharger le site Web spécifié de manière récursive. La deuxième option '-l1' indique à wget de n'obtenir que le premier niveau de liens provenant de ce site Web spécifié. Nous pouvons définir jusqu'à trois niveaux '-l2' et '-l3'.
3. Ignorer l'entrée du robot
Le maître Web maintient un fichier texte appelé Robot.txt. 'Robot.txt' conserve une liste d'URL qu'un robot d'exploration de page Web tel que wget ne doit pas analyser. Nous pouvons dire à wget d'ignorer le "Robot.txt" avec l'option "-erobots = off". La commande suivante indique à wget de télécharger la première page de mon profil google et d’ignorer le fichier 'Robot.txt.
[code]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/code]
Une autre option utile est -U. Cette option masquera wget en tant que navigateur. Notez que le masquage d'une application en tant qu'autre application peut constituer une violation du mandat et du service d'un fournisseur de services Web..
[code]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/code]
Conclusion
Wget est un très vieux paquetage de logiciels GNU piratable qui peut être utilisé pour télécharger des fichiers. Wget est un outil de ligne de commande interactif qui signifie que nous pouvons le laisser s'exécuter en arrière-plan sur notre ordinateur sans avoir à démarrer aucune application. Consultez la page de manuel de wget
[code]
$ man wget
[/code]
pour comprendre les autres options que nous pouvons utiliser avec wget.
Liens
Manuel Wget
Comment combiner deux fichiers téléchargés lorsque wget échoue à mi-parcours
Linux QuickTip: Télécharger et décompresser en une seule étape