Debian Debian-France Debian-Facile Debian-fr.org Forum-Debian.fr Debian ? Communautés

Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).

Contributions : Récentes | Sans réponse

L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT →

Ceci est une ancienne révision du document !

Table des matières

Introduction
- - Panorama exhaustif des programmes utilisant les ER en ligne de commandes ou avec des scripts shell
  - Avant de commencer un rappel des métacaractères, leur signification pour le shell et pour quelques une des commandes évoquées ci-dessus
- Quelques unes des commandes utilisant les ER, utilisent aussi les métacaractères
  - grep et métacaractères pour globaliser les fichiers concernés
  - find et les métacaractères
Les expressions rationnelles basiques
Les classes
Les expressions rationnelles étendues
- Caractères des ERe
  - Les raccourcis ne sont pas posix

ERb et ERe par le contexte des commandes

Objet : maîtriser les expressions rationnelles basiques et étendues
Niveau requis : avise
Commentaires : Il s'agira de distinguer ERb et ERe et de savoir les utiliser en fonction des commandes de gestion de fichier.

Introduction

Pour apprendre à utiliser les expressions rationnelles, il faut en passer par l'exercice.
Mais pour être en mesure d'en passer par l'exercice, il faut nécessairement en passer par les programmes utilisant les expressions rationnelles. C'est là que les choses se compliquent pour le néophyte.

Il faut savoir en effet que :

la configuration locale affecte la façon dont les expressions rationnelles sont interprétées¹⁾.
qu'il y a également plusieurs types d'expressions rationnelles, PCRE, posix-awk, posix-basic, posix-egrep et posix-extended.
Enfin, les différents programmes permettant de s'y exercer, grep, egrep, find, locate, sed, awk, etc. n'utilisent pas tous le même type d'expressions rationnelles.

Heureusement, pour s'éviter d'assimiler en même temps tous ces différents types, il est possible sous GNU/Linux, d'utiliser avec chacun des programmes spécifiques à la gestion des fichiers, soit par défaut, soit au moyen d'une option, les expressions rationnelles basiques (ERb) et les expressions rationnelles étendues (ERe).

Heureusement encore, les ERb et ERe donnent un très bon aperçu de ce que permettent les ER, et les étudier permet d'acquérir une base solide quant à la signification des caractères utilisables; ils sont de plus POSIX, c'est-à-dire portables.

Le contexte de cet apprentissage, se limitera donc à l'utilisation des expressions rationnelles au moyen des commandes de gestion des fichiers, et n'appréhendera pas l'utilisation des ER au sein des langages spécialisés pour la programmation avancée.

Panorama exhaustif des programmes utilisant les ER en ligne de commandes ou avec des scripts shell

grep : d'un motif contenu dans un fichier et utilise les jokers pour afficher les fichiers contenant le motif
find : Rechercher des fichiers sur le système en fonction de paramètres spécifiques
find et grep : rechercher une chaîne et le fichier en une ligne
locate : rechercher un fichier dans un index des fichiers du système
commande sed : sélectionner ou modifier les chaînes sélectionnées d'un ficher par une ERb ou une ERE.
commande awk : sélectionner les colonnes, lignes, mots d'un fichier, et modifier l'affichage en fonction de la sélection.
et la commande expr : uniquement pour sélectionner une variable au moyen d'une ER basique.

Dans un premier temps, je donnerai la liste des ERb et ERe, puis je montrerai comment les utiliser avec chacun de ces programmes.

Avant de commencer un rappel des métacaractères, leur signification pour le shell et pour quelques une des commandes évoquées ci-dessus

Rappel des métacatères et des “bracket expression” :


Les métacaractères du shell (ou joker)
*``**	n'importe quelle chaîne de n'importe quels caractères
`?`	un caractère quelconque et un seul
les “bracket expression”
`[ ]`	un caractère cité dans la liste entre crochets
`[ - ]`	groupe de caractères

l'étoile :

ls *

milou  test    titi   titi1	 titi.txt  toto   Toto1.txt
tata   tintin  titi.  titi1.txt  tito	   toto.  Toto.txt

le point d'interrogation

ls titi?

titi.  titi1

crochets

ls [Tt][io]t[io]?

titi.  titi1  toto.

groupe avec crochets

ls t[a-z]t[a-z]

tata  titi  tito  toto

Il en serait de même avec les commandes echo et rm par exemple.

Quelques unes des commandes utilisant les ER, utilisent aussi les métacaractères

grep et métacaractères pour globaliser les fichiers concernés

Imaginons qu'on cherche tous les fichiers comportant le caractère “e”.

Dans ce cas, il s'agit d'utiliser les métacaractères :

grep -lR "e" Toto*

option -l : Ne pas afficher les résultats normaux. À la place, indiquer le nom des fichiers pour lesquels des résultats auraient été affichés.
option -R : Lire récursivement tous les fichiers à l'intérieur de chaque répertoire.

Toto.txt

grep -lR "e" titi?

titi.
titi1

grep -lR "e" [Tt][io]t[io]?

titi.
titi1

find et les métacaractères

find ~/ERetCMD/Dossier/ -name "toto*"

/home/hypathie/ERetCMD/Dossier/toto
/home/hypathie/ERetCMD/Dossier/toto.

find ~/ERetCMD/Dossier/ -name "titi?"

/home/hypathie/ERetCMD/Dossier/titi1
/home/hypathie/ERetCMD/Dossier/titi.

find ~/ERetCMD/Dossier/ -name "[Tt][io]t[io]?"

/home/hypathie/ERetCMD/Dossier/titi1
/home/hypathie/ERetCMD/Dossier/toto.
/home/hypathie/ERetCMD/Dossier/titi.

Puisque tout est bien clair, nous pouvons aller plus loin

Les expressions rationnelles basiques

Certains caractères sont communs au ERb et ERe, pour ne pas avoir à les répéter, il est préférable de les regrouper. D'autant plus que les commandes qui permettent de se servir des ER en général, reconnaissent tous les caractères communs aux ERb et ERe, excepté pour les classes qu'il faut considérer à part, et traiter cas par cas.

Caractères communs aux ERb et ERe

expressions	Modèles reconnus
c	Tout non métacaractère c.
`\`	Échappement du caractère spécial. Par exemple `\.` sélectionne un point littéral.
`^`	Test effectué au début de la chaîne.
`$`	Test effectué à la fin de la chaîne.
`.`	Tout caractère sauf une fin de ligne.
*``**	Zéro à n chaînes consécutives validées par l’expression régulière r.
`\<`	début d'un mot (caractères pouvant faire partie de [A-Z-z0-9]
`\>`	Fin d'un mot
`[liste_de_caractères]`	Un caractère cité dans la liste
`[^liste_de_caractères]`	Un carcatère qui n'est pas dans la liste

la commande grep et le ERb

Soit le fichier “liste1-nom” :

1 2 Francine
2 3 Édith
3 4 Géraldine
123 AAAAAA
tout le monde
partout
toutefois
4 5 Béatrice
5 6 Christelle
5 7 Dorothée
6 8 Amanda

la dernière ligne du fichier est vide

le caractère début de ligne ^

grep "^4" liste1-nom

4 5 Béatrice

le caractère fin de ligne $

grep "e$" liste1-nom

1 2 Francine
3 4 Géraldine
4 5 Béatrice
5 6 Christelle
5 7 Dorothée

pour sélectionner une ligne vide :

grep "^$" liste1-nom

le point

grep ".dith" liste1-nom

2 3 Édith

l'étoile

grep "A*" liste1-nom

1 2 Francine
2 3 Édith
3 4 Géraldine
123 AAAAAA
4 5 Béatrice
5 6 Christelle
5 7 Dorothée
6 8 Amanda

Attention, il ne s'agit pas du métaractère. Étoile signifie “zéro ou plusieurs 'A'”, donc toutes les lignes correspondent à zéro 'A' apparaissent aussi.

grep "123 A*" liste1-nom

123 AAAAAA

les crochets

grep "[43]" liste1-nom

2 3 Édith
3 4 Géraldine
123 AAAAAA
4 5 Béatrice

les lignes comportant 4 ou 3

L'exclusion de caractères [^ ]

Chaîne qui commence ni par 1, ni par 2, ni par aucun des caractères entre crochets.

grep "^[^12345678]" liste1-nom

tout le monde
partout
toutefois

Chaîne qui ne se termine pas par le caractère “e”.

grep "[^e]$" liste1-nom

2 3 Édith
123 AAAAAA
partout
toutefois
6 8 Amanda

Chaîne qui ne se termine pas l'un des caractères de l'intervalle

grep "[^a-z]$" liste1-nom

123 AAAAAA

Le caractère début de mot \<

grep "\<tout" liste1-nom

tout le monde

Le caractère fin de mot \>

grep "fois\>" liste1-nom

toutefois

Un mot exactement \<mot\>

grep "\<tout\>" liste1-nom

tout le monde

La commande sed

Pour les caractères considérés ci-dessus, . ; *, ^, $, [liste de caractères], [^liste de caractères], \<, \>,
il en va de même pour la commande sed que pour la commande grep.
Je ne donnerai que quelques exemples.
Il est à noter que sans l'option -i, les exemples ne modifieront pas le fichier.

Comme grep pour les caractères vues jusqu'ici

Les caractère début et fin de ligne :

Par exemple, supprimer la ligne vide :

sed '/^$/ d' liste1-nom

Le caractère étoile :

Par exemple, substituer “AAAAAA” par abc

sed -e '/A*/s/AAAAAA/abc/' liste1-nom

Le caractère fin de mot :

Par exemple, tout supprimer sauf la ligne comportant un mot finissant par “fois”

sed '/fois\>/ !d' liste1-nom

Attention au sens global de la ER donné par la commande

Si la signification des caractère est la même, l'action de la commande modifie “la phrase”, ou le sens global de la ER.
Comparer l'usage des [^ ] de grep avec ce qui suit :

echo "12 f 6 7" | sed 's/^[^12345678]/coucou/g'

12 f 6 7

Il ne se passe rien car avec sed la signification de la ER est : “substitue le caractère de début de la ligne qui ne commence pas par l'un des caractères '1234567'”.
sed ne cherche pas comme grep une chaîne ou un cataère qui “ne commence pas par l'un des caractères '1234567'”, et ne substituerait pas “f” de cette manière.

Ainsi :

echo " 12 f 6 7" | sed 's/[^1-7]/X/g'

X12XXX6X7

Le sens de la ER est “substitue tout ce qui n'est pas 1, 2, 3, 4, 5, 6, 7 par “X”
Y compris les espaces !

Il ne faut donc pas s'imaginer que sed utilise une version non posix des ER, telle que la littérature à son sujet l'alimente parfois.
Ce n'est que pour ce qui concerne les implantations GNU qui ne sont pas posix, que sed présente quelques bizarreries.
Rien d'obscure et pas d'obscurantisme, tout reste logique, à condition de savoir en changer… C'est là ce qui rend passionnant l'utilisation d'un méta-langage, la possibilité de la différence par delà l'identité des éléments, au moyen du contexte !

Caractère spécifiques aux ERb

expressions	Modèles reconnus
`\{m\}`	m fois le caractère précédent
`\{m,\}`	au moins m fois le caractère précédent
`\{m,n\}`	entre m et n fois le caractère précédent
`$ERb$`	mémorisation d'une ERb
`\1, \2, ...`	Rappel de mémorisation

→ Le caractère \ donne une signification spéciale aux parenthèses et accolades, au lieu de les rendre littérales.

Avec grep, sed, expr : sans option
Avec find option -regextype “posix-basic”
Avec locate option -r (–regexp) : Rechercher une expression rationnelle REGEXP de base

Les classes


`[[:alnum:]]`	Alpha-numerique [a-z A-Z 0-9]
`[[:alpha:]]`	Alphabetic [a-z A-Z]
`[[:blank:]]`	Espaces ou tabulations
`[[:cntrl:]]`	Caractères de contrôle
`[[:digit:]]`	Nombres [0-9]
`[[:graph:]]`	Tous les caractères visibles (à l'exclusion des espaces)
`[[:lower:]]`	Lettres minuscules [a-z]
`[[:print:]]`	Caractères imprimables (tous caractères sauf ceux de contrôle)
`[[:punct:]]`	Les caractères de ponctuation
`[[:space:]]`	Les espaces
`[[:upper:]]`	Les lettres majuscules [A-Z]
`[[:xdigit:]]`	Chiffres hexadécimaux [0-9 a-f A-F]

Avec grep, elles ne nécessitent pas l'option -R ou egrep.

grep "[[:digit:]]" liste1-nom

1 2 Francine
2 3 Édith
3 4 Géraldine
123 AAAAAA
4 5 Béatrice
5 6 Christelle
5 7 Dorothée
6 8 Amanda

Avec sed il faut l'option -r, bien que les classes relèvent des ERb.
Avec find option : -regextype “posix-extended”
Avec locate : –regex : Interpréter tous les “PATTERNs” (modèles) comme des expressions rationnelles étendues.

Les expressions rationnelles étendues

Caractères des ERe

expressions	Modèles reconnus
`?`	zéro ou une fois le caractère ou le regroupement précédent
`+`	une à n fois le caractère ou regroupement précédent
`{m}`	m fois le caractère précédent
`{m,}`	m fois le caractère précédent
`{m,n}`	entre m et n fois le caractère précédent
`( er1)`	regroupement
`er1\|er2\|er3`	alternative
`(er)+`	Une ou plus de une chaîne(s) consécutive(s) validée(s) “er”.
*`(er)`**	zéro ou plus de zéro chaîne(s) consécutive(s) validée(s) par “er”
`(er)?`	une chaîne bulle ou toute chaîne validée par “er”.
`[c1c2...]`	Tout caractère expressément listé entre les crochets.
`[^c1c2...]`	Tout caractère excepté ceux qui sont expressément listés entre les crochets.
`[c1-c2]`	Tout caractère appartenant à l’intervalle c1 c2, bornes comprises.
`er1\|er2`	Toute chaîne de caractères validée soit par er1 soit par er2.
`(er)(er)`	Toute chaîne validée par l’expression er, chaîne vide exclue.
`(er1)(er2)`	Toute chaîne de caractères de type AB, dans laquelle l’expression régulière er1 valide A et l’expression régulière er2 valide B. Avec awk uniquement

Excepté (er1)(er2) :

utilisables avec awk (sans option)
utilisables avec grep -E et egrep
utilisables avec sed -r

Les raccourcis ne sont pas posix

sed :

Séquences	Séquences
`\f`	Produit ou correspond à un saut
`\n`	Produit ou correspond à un retour à la ligne
`\t`	Produit ou correspond à un onglet horizontal
`\v`	Produit ou correspond à une tabulation verticale
`\w`	Synonyme de `[[:alnum:]]` → correspond à un mot.
`\W`	Synonyme de `[^[:alnum]]` → ce qui autre qu'un mot.
`\b`	Correspond à une chaîne vide (blanc) à l'extrémité d'un mot

awk :

Séquences	Séquences
`\b`	backspace (supprime le dernier caractère d'une chaîne)
`\f`	formfeed (nouvelle page)
`\r`	carriage return (retour à la ligne)
`\t`	tabulation (crée une tabulation de dix espaces)
`\c`	tout caractère pris sous sa forme littérale excepté `\`

Excepté (er1)(er2) :

Tous sont utilisables avec grep -E et egrep
Tous sont utilisable avec awk
Certains posent problème avec sed -r

Avec find et locate :

find -regextype “posix-extended”

Les types actuellement implémentés sont emacs (type par

            défaut), posix-awk, posix-basic, posix-egrep et posix-extended.

locate –regex : Interpréter tous les “PATTERNs” (modèles) comme des expressions rationnelles étendues.

¹⁾

Voir Variables d'environnement, pour une description de la façon dont la configuration de votre environnement local influe sur l'interprétation des expressions rationnelles

utilisateurs/hypathie/tutos/erb-et-ere-par-le-contexte-des-commandes.1407569263.txt.gz · Dernière modification: 09/08/2014 09:27 par Hypathie

Pied de page des forums

Atteindre

Propulsé par FluxBB