logo Debian Debian Debian-France Debian-Facile Debian-fr.org Forum-Debian.fr Debian ? Communautés logo inclusivité

Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).

#1 26-03-2016 16:18:50

Spirale21
Membre
Distrib. : Debian GNU/Linux 9.12 (stretch)
Noyau : Linux 4.9.0-12-amd64
(G)UI : i3
Inscription : 26-02-2013

Analyse d'HTML avec perl

Bonjour,

Je vous explique: Pour avoir une fiche correspondant à des films j'ai décider d'extraire des infos de site de cinéma (genre www.commeaucinema.com ou www.allocine.fr). Les infos extraites se limitera à la durée d'un film, son genre (ou ses genres), son Titre original (bizarrement j'ai beaucoup de films américain dans mon disque dur externe tongue ma vidéothèque), son résumé et certainement d'autre chose.. Au début je voulais faire un petit script bash en parsant la page HTML (récupéré avec Wget) mais je me suis aperçu de la limitations des expressions régulières de bash (enfin de celle que j'utilisais) alors l'idée m'est venu de parser le fichier HTML avec perl ... Et bien l'idée est là mais maintenant j'ai  trouver le module "qui va bien": HTML::Parser l'ennui c'est que je comprends pas du tout comment il s'utilise, pire qu'une poule qui a trouvé un couteau lol big_smile. Alors comme j'ai des lacunes en Anglais si quelqu'un avait un lien ou un petit tuto pour me montrer comment marche ce module je lui en serait reconnaissant.... pas en détail juste pour démarrer avec lui savoir comment il marche en général.

Merci beaucoup smile

La difficulté est source d'apprentissage

Hors ligne

#2 26-03-2016 16:38:52

bendia
Chadministrateur
Distrib. : openSUSE Tumbleweed, Buster
Noyau : Linux 5.9.1-2-default + Linux 4.19.0-12-amd64
(G)UI : Gnome + Console et un peu Fluxbox
Inscription : 20-03-2012
Site Web

Re : Analyse d'HTML avec perl

Salut smile

Une petite recherche sur DuckDuckGo avec HTML::Parser perl, me renvoi ça en 15ème position : http://www.developpez.net/forums/d32181 … ml-parser/

J'espère que ça pourra t'aider wink

Ben
___________________
La seule question bête, c'est celle qu'on ne pose pas.

Hors ligne

#3 26-03-2016 19:02:28

Spirale21
Membre
Distrib. : Debian GNU/Linux 9.12 (stretch)
Noyau : Linux 4.9.0-12-amd64
(G)UI : i3
Inscription : 26-02-2013

Re : Analyse d'HTML avec perl

J'avais vu mais je comprends rien big_smile..merci quand même

La difficulté est source d'apprentissage

Hors ligne

#4 03-04-2016 12:45:03

Spirale21
Membre
Distrib. : Debian GNU/Linux 9.12 (stretch)
Noyau : Linux 4.9.0-12-amd64
(G)UI : i3
Inscription : 26-02-2013

Re : Analyse d'HTML avec perl

Bon..je suis sur une autre piste: le package HTML::Tree,  ça peux faire comme je veux (cet exemple m'a beaucoup aidé http://www.perlmonks.org/?node_id=280461).
exemple d'url que j'utiliserai : http://www.allocine.fr/film/fichefilm_g … 22968.html
-------------------------------------
Alors en bash, j'ai trouvé :
y'a

 wget -O- http://www.allocine.fr/film/fichefilm_gen_cfilm=222968.html | html2text >test.tmp


file test.tmp


on voit qu'on est déjà en utf-8
et ensuite on le réencode

iconv -f UTF8 -t ISO8859-1 test.tmp


puis faire des recherches
---------------------------------------------
Avec le bash même si ça peut marcher le fichier n'est plus du HTML donc on le parse plus, ce qui m'éloigne de ma demande initiale (mais non je suis pas chiant tongue ). Je continue mes recherches sur le perl.
Merci

Dernière modification par Spirale21 (03-04-2016 12:45:38)


La difficulté est source d'apprentissage

Hors ligne

Pied de page des forums