[Résolu] Extraction de données html avec Sed

Orsam999 · 22-08-2015 07:43:10

Bonjour à tous,

J'ai un petit problème que je n'arrive pas à résoudre.

J'explique : J'ai un code html tout simple :

<tbody>

  <tr >

    <td type="Date">20/08/2015</td>

    <td attrib="Libelle">Ouverture</td>

    <td attrib="site" class="last">Centre 1</td>

  </tr>

  <tr class='last'>

    <td headers="Date">20/08/2015</td>

    <td headers="Libelle">John part à la peche</td>

    <td headers="site" class="last">Centre 2</td>

  </tr>

</tbody>

L'idée c'est d'extraire les données contenues dans les balises TD et de les mettre dans une variable tableau.

Voici ce que j'ai fait :

i=-1

mon_tableau=()

sed -n 's,.*<td .*>\([^>].*\)</td>,\1,p' /tmp/test.html | while read titre; do

        echo $titre

        i=`expr $i + 1`

        mon_tableau[$i]="$titre"

done

echo ${mon_tableau[*]}

Maintenant j'ai deux problèmes, le premier, c'est que les deux TD qui contiennent respectivement Centre 1 et Centre 2 ne sorte pas avec echo $titre...

Le deuxième problème, est que mon tableau, reste vide malgré que dans la variable $titre contiennent quand même les textes des autres TD ...

Une idée ??

Merci par avance.

Orsam

Dernière modification par Orsam999 (27-08-2015 06:31:35)

Orsam999 · 22-08-2015 08:16:15

Re moi,

Je crois avoir trouvé le problème pour les TD qui ne renvois par de résultat. En fait, le html était plus formé comme ça (et non comme dans le post précédent) :

<tbody>

  <tr >

    <td type="Date">20/08/2015</td>

    <td attrib="Libelle">Ouverture</td>

    <td attrib="site" class="last">

Centre 1

</td>

  </tr>

  <tr class='last'>

    <td headers="Date">20/08/2015</td>

    <td headers="Libelle">John part à la peche</td>

    <td headers="site" class="last">

Centre 2

</td>

  </tr>

</tbody>

Pour résoudre le problème des tabulation, retour chariots, etc.. , j'ai fait une petite commande tr :

tr -d '\r\n\s\t' 

Maintenant, mon html ressemble à ça (ok, pourquoi pas..) :

<tr ><td type="Date">20/08/2015</td><td attrib="Libelle">Ouverture</td><td attrib="site" class="last">Centre 1</td>/tr><tr class='last'><td headers="Date">20/08/2015</td><td headers="Libelle">John part à la peche</td><td headers="site" class="last">Centre 2</td>/tr>

Par contre maintenant, le code du post précédent ne renvoi plus rien :

i=-1

mon_tableau=()

sed -n 's,.*<td .*>\([^>].*\)</td>,\1,p' /tmp/test.html | while read titre; do

        echo $titre

        i=`expr $i + 1`

        mon_tableau[$i]="$titre"

done

echo ${mon_tableau[*]}

Je pense que c'est le while read qui ne va pas, mais je ne sais pas quoi utiliser d'autre...

Au secours !!

Merci.

Orsam

D@mien · 24-08-2015 10:21:36

Hello
Désolé, sed me donne la nausée

Je l'écrirais naturellement comme ceci (où full perl, mais c'est pas la question

)

#!/usr/bin/bash

array=()

while read i;do

    array+=("$i")

done < <(perl -n -e 'print "$1\n" if /<td[^>]*>(.*)<\/td>/' file)

for i in $(seq 0 ${#array[@]});do

    echo ${array[$i]}

done

++

Orsam999 · 27-08-2015 06:30:51

Bonjour D@amien et merci pour ta réponse.

Ca marche PARFAITEMENT !!!!!

Euh... par contre, désolé pour ta nausée..

Merci beaucoup

Orsam

Dernière modification par Orsam999 (27-08-2015 06:31:13)

EmilieS · 29-02-2016 14:59:31

Bonjour,

Sinon en php il y a une librairie qui s'apelle simpledomhtml très pratique !

enicar · 29-02-2016 20:39:10

Orsam999 a écrit :

Je pense que c'est le while read qui ne va pas, mais je ne sais pas quoi utiliser d'autre...

Ce n'est pas le « while read » qui ne fonctionne mais la façon dont il
est utilisé. Le problème vient du tube que tu utilises pour passer tes
données à read. Ce tube va créer un sous shell dans lequel la
variable mon_tableau est complétement indépendante de celle que
tu as créé juste avant la boucle. Pour circonvenir à cette situation,
on peut utiliser une substitution de processus comme l'a fait D@mien.
Pour être clair, la substitution de processus c'est :

<(sed -n 's,.*<td .*>\([^>].*\)</td>,\1,p')

 

Cela crée un tube nomé (c'est un fichier dans le système de fichier)
temporaire. sed va donc afficher sur la sortie standard qui est
redirigé vers ce tube nomé. Avec l'autre partie :

< <(sed -n 's,.*<td .*>\([^>].*\)</td>,\1,p')

 

On va rediriger l'entrée standard pour lire dans le tube nomé.
Et donc :

mon_tableau=()

while read titre; do

        mon_tableau += ("$titre")

done < <(sed -n 's,.*<td .*>\([^>].*\)</td>,\1,p' /tmp/test.html)

Va permettre à read de lire les données extraites par sed.
Donc, tu peux tout à fait continuer à utiliser sed

Aller, le programme complet :

mon_tableau=()

while read titre; do

        mon_tableau += ("$titre")

done < <(sed -n 's,.*<td .*>\([^>].*\)</td>,\1,p' /tmp/test.html)

for titre in "${mon_tableau[@]}"; do

    echo $titre

done

Évidemment, ça serait mieux en perl, python ou ruby, mais bon… En
plus, analyser du code html en utilisant des expressions rationnelles
peut être assez aventureux. Il existe d'excellentes bibliothèques pour
cela, beautifulsoup et html5lib en python par exemple. Il en existe
en perl et en ruby aussi. Mais même mieux l'utilitaire xpath
fournit avec libxml-xpath-perl permet aussi d'extraire des
données des fichiers html pour peu qu'ils soient bien formés (d'après
ce que je me souviens). Il est tout à fait possible d'utiliser xpath
dans un shell script

Dernière modification par enicar (29-02-2016 21:07:15)

enicar · 01-03-2016 10:54:17

Ah ! J'ai oublié ! On peut faire bien plus simple pour initialiser un
tableau, grâce à la fonction interne de bash readarray (ou
mapfile) :

readarray -t mon_tableau < <(sed -n 's,.*<td[^>]*>\([^<]*\)</td>,\1,p' /tmp/test.html)

for titre in "${mon_tableau[@]}"; do

    echo "$titre"

done

Le « -t », c'est pour enlever les retour à la ligne. Du coup ton script
devient vraiment simple. J'ai un peu modifié l'expression sed
pour qu'elle corresponde mieux à tes données…
Mais si il y a un <td> écrit sur plusieurs lignes ça ne marchera pas…
C'est la limite de ce genre d'approche basée sur des expressions
rationnelles. Je pense que l'on peut le faire fonctionner quand même
avec plusieurs expressions sed bien choisies… je le laisse en exercice

Debian-facile

#1 22-08-2015 07:43:10

[Résolu] Extraction de données html avec Sed

#2 22-08-2015 08:16:15

Re : [Résolu] Extraction de données html avec Sed

#3 24-08-2015 10:21:36

Re : [Résolu] Extraction de données html avec Sed

#4 27-08-2015 06:30:51

Re : [Résolu] Extraction de données html avec Sed

#5 29-02-2016 14:59:31

Re : [Résolu] Extraction de données html avec Sed

#6 29-02-2016 20:39:10

Re : [Résolu] Extraction de données html avec Sed

#7 01-03-2016 10:54:17

Re : [Résolu] Extraction de données html avec Sed

Pied de page des forums