Analyse d'HTML avec perl

Spirale21 · 26-03-2016 16:18:50

Bonjour,

Je vous explique: Pour avoir une fiche correspondant à des films j'ai décider d'extraire des infos de site de cinéma (genre www.commeaucinema.com ou www.allocine.fr). Les infos extraites se limitera à la durée d'un film, son genre (ou ses genres), son Titre original (bizarrement j'ai beaucoup de films américain dans mon disque dur externe

ma vidéothèque), son résumé et certainement d'autre chose.. Au début je voulais faire un petit script bash en parsant la page HTML (récupéré avec Wget) mais je me suis aperçu de la limitations des expressions régulières de bash (enfin de celle que j'utilisais) alors l'idée m'est venu de parser le fichier HTML avec perl ... Et bien l'idée est là mais maintenant j'ai trouver le module "qui va bien": HTML::Parser l'ennui c'est que je comprends pas du tout comment il s'utilise, pire qu'une poule qui a trouvé un couteau

. Alors comme j'ai des lacunes en Anglais si quelqu'un avait un lien ou un petit tuto pour me montrer comment marche ce module je lui en serait reconnaissant.... pas en détail juste pour démarrer avec lui savoir comment il marche en général.

Merci beaucoup

bendia · 26-03-2016 16:38:52

Salut

Une petite recherche sur DuckDuckGo avec HTML::Parser perl, me renvoi ça en 15ème position : http://www.developpez.net/forums/d32181 … ml-parser/

J'espère que ça pourra t'aider

Spirale21 · 26-03-2016 19:02:28

J'avais vu mais je comprends rien

..merci quand même

Spirale21 · 03-04-2016 12:45:03

Bon..je suis sur une autre piste: le package HTML::Tree, ça peux faire comme je veux (cet exemple m'a beaucoup aidé http://www.perlmonks.org/?node_id=280461).
exemple d'url que j'utiliserai : http://www.allocine.fr/film/fichefilm_g … 22968.html
-------------------------------------
Alors en bash, j'ai trouvé :
y'a

 wget -O- http://www.allocine.fr/film/fichefilm_gen_cfilm=222968.html | html2text >test.tmp

file test.tmp

on voit qu'on est déjà en utf-8
et ensuite on le réencode

iconv -f UTF8 -t ISO8859-1 test.tmp 

puis faire des recherches
---------------------------------------------
Avec le bash même si ça peut marcher le fichier n'est plus du HTML donc on le parse plus, ce qui m'éloigne de ma demande initiale (mais non je suis pas chiant ). Je continue mes recherches sur le perl.
Merci

Dernière modification par Spirale21 (03-04-2016 12:45:38)

Debian-facile

#1 26-03-2016 16:18:50

Analyse d'HTML avec perl

#2 26-03-2016 16:38:52

Re : Analyse d'HTML avec perl

#3 26-03-2016 19:02:28

Re : Analyse d'HTML avec perl

#4 03-04-2016 12:45:03

Re : Analyse d'HTML avec perl

Pied de page des forums