Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).

#1 14-11-2016 23:08:42

Grimlinzz
Membre
Distrib. : Debian 8.2 Jessie
Noyau : Linux 3.16.0-4-amd64
(G)UI : Mate
Inscription : 15-09-2015

telechargement code html avec wget

Bonsoir, je souhaite faire un script qui télécharge une page html pour récuperer certaine info que cette page contient  ( ici pour récuperer des informations sur des cartes magic tongue)
Le problème est que quand je suis sur la page avec mon navigateur et que je fait ctrl+u pour voir le code html, je trouve les informations que je recherche et la page fait environ 1000 lignes.
Cependant quand j'utilise wget pour telecharger cette page avec l'url, le code html que j'obtient ne fait qu'environ 500 lignes et certaines lignes , et certaines informations ne sont plus présente.

Avez vous une solution pour récuperer le meme code que j'obtient quand je fait un ctrl+u sur mon navigateur ?

Merci

Hors ligne

#2 14-11-2016 23:14:59

nIQnutn
Modérateur
Lieu : Lyon
Distrib. : Jessie
Noyau : Linux 3.16-amd64
(G)UI : XFCE
Inscription : 16-03-2012
Site Web

Re : telechargement code html avec wget

commence par donner un lien.

Hors ligne

#3 14-11-2016 23:16:26

Grimlinzz
Membre
Distrib. : Debian 8.2 Jessie
Noyau : Linux 3.16.0-4-amd64
(G)UI : Mate
Inscription : 15-09-2015

Re : telechargement code html avec wget

Le lien que je télecharge avec wget est : https://magictrade.org/cartes/pia-et-kiran-nalaar/

Hors ligne

#4 15-11-2016 11:13:31

tux12
Membre
Lieu : ./
Distrib. : Squeeze
Noyau : Linux 2.6.32-5-686-bigmem
(G)UI : KDE
Inscription : 27-02-2008

Re : telechargement code html avec wget

Bonjour,

Voir du côté de l'option -p (ou --page-requisites) qui permet de charger l'ensemble des fichiers nécessaires à l'affichage d'une page.

Hors ligne

#5 15-11-2016 23:17:32

Grimlinzz
Membre
Distrib. : Debian 8.2 Jessie
Noyau : Linux 3.16.0-4-amd64
(G)UI : Mate
Inscription : 15-09-2015

Re : telechargement code html avec wget

Bonsoir,

Merci de ta réponse, cependant avec cette option je récupere plus d'info comme les img ou le css, mais les info que je recherche sont dans le code html et le fichier html qu'on obtient et le meme sans l'option, d'ailleurs j'ai regarder de plus pres et se sont les formulaires qui disparaissent du code

Hors ligne

#6 16-11-2016 00:30:27

tux12
Membre
Lieu : ./
Distrib. : Squeeze
Noyau : Linux 2.6.32-5-686-bigmem
(G)UI : KDE
Inscription : 27-02-2008

Re : telechargement code html avec wget

Hmmm, je suis à peu prêt certain que c'est "fait exprès" pour empêcher ce que tu tentes de faire. Donc la suite sans moi. wink

Hors ligne

#7 16-11-2016 00:45:51

nIQnutn
Modérateur
Lieu : Lyon
Distrib. : Jessie
Noyau : Linux 3.16-amd64
(G)UI : XFCE
Inscription : 16-03-2012
Site Web

Re : telechargement code html avec wget

tu peux aussi tenter avec httrack:
https://packages.debian.org/jessie/httrack
https://packages.debian.org/jessie/webhttrack

éventuellement avec scrapbook

Hors ligne

#8 16-11-2016 02:34:04

MicP
Membre
Distrib. : debian stable
Noyau : Linux 3.16.0-4-amd64
(G)UI : Xfce
Inscription : 29-02-2016

Re : telechargement code html avec wget

Je ne connais pas assez bien curl et wget, mais il y a au moins deux cookies à accepter avant que la page ne soit chargée.
De plus, il faut sans doute aussi que l'User-Agent (références du navigateur) soit reconnu par le serveur.

Pour constater ça, j'ai utilisé lynx qui est un navigateur au format texte dont je n'ai pas non plus testé toutes les possibilités.
Il est "énorme" : 31ko occupé sur le disque une fois installé.

Mais vu les options possibles de wget, ce doit être faisable en créant un en-tête spécifique et en trouvant les "bonnes" options pour les cookies

Dernière modification par MicP (16-11-2016 09:36:04)

Hors ligne

#9 16-11-2016 08:54:43

Grimlinzz
Membre
Distrib. : Debian 8.2 Jessie
Noyau : Linux 3.16.0-4-amd64
(G)UI : Mate
Inscription : 15-09-2015

Re : telechargement code html avec wget

d'accord, merci pour vos réponse. Je vais chercher avec ce que vous m'avez dit.

Hors ligne

Pied de page des forums