Vous n'êtes pas identifié(e).
L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT →
Ceci est une ancienne révision du document !
Pour apprendre à utiliser les expressions rationnelles, il faut en passer par l'exercice.
Mais pour être en mesure d'en passer par l'exercice, il faut nécessairement en passer par les programmes utilisant les expressions rationnelles. C'est là que les choses se compliquent pour le néophyte.
Il faut savoir en effet que :
Heureusement, pour s'éviter d'assimiler en même temps tous ces différents types, il est possible sous GNU/Linux, d'utiliser avec chacun des programmes spécifiques à la gestion des fichiers, soit par défaut, soit au moyen d'une option, les expressions rationnelles basiques (ERb) et les expressions rationnelles étendues (ERe).
Heureusement encore, les ERb et ERe donnent un très bon aperçu de ce que permettent les ER, et les étudier permet d'acquérir une base solide quant à la signification des caractères utilisables; ils sont de plus POSIX, c'est-à-dire portables.
Le contexte de cet apprentissage, se limitera donc à l'utilisation des expressions rationnelles au moyen des commandes de gestion des fichiers, et n'appréhendera pas l'utilisation des ER au sein des langages spécialisés pour la programmation avancée.
Dans un premier temps, je donnerai la liste des ERb et ERe, puis je montrerai comment les utiliser avec chacun de ces programmes.
Les métacaractères du shell (ou joker) | |
* | n'importe quelle chaîne de n'importe quels caractères |
? | un caractère quelconque et un seul |
les “bracket expression” | |
[ ] | un caractère cité dans la liste entre crochets |
[ - ] | groupe de caractères |
ls *
milou test titi titi1 titi.txt toto Toto1.txt tata tintin titi. titi1.txt tito toto. Toto.txt
ls titi?
titi. titi1
ls [Tt][io]t[io]?
titi. titi1 toto.
ls t[a-z]t[a-z]
tata titi tito toto
Il en serait de même avec les commandes echo et rm par exemple.
Imaginons qu'on cherche tous les fichiers comportant le caractère “e”.
grep -lR "e" Toto*
option -l : Ne pas afficher les résultats normaux. À la place, indiquer le nom des fichiers pour lesquels des résultats auraient été affichés.
option -R : Lire récursivement tous les fichiers à l'intérieur de chaque répertoire.
Toto.txt
grep -lR "e" titi?
titi. titi1
grep -lR "e" [Tt][io]t[io]?
titi. titi1
find ~/ERetCMD/Dossier/ -name "toto*"
/home/hypathie/ERetCMD/Dossier/toto /home/hypathie/ERetCMD/Dossier/toto.
find ~/ERetCMD/Dossier/ -name "titi?"
/home/hypathie/ERetCMD/Dossier/titi1 /home/hypathie/ERetCMD/Dossier/titi.
find ~/ERetCMD/Dossier/ -name "[Tt][io]t[io]?"
/home/hypathie/ERetCMD/Dossier/titi1 /home/hypathie/ERetCMD/Dossier/toto. /home/hypathie/ERetCMD/Dossier/titi.
Puisque tout est bien clair, nous pouvons aller plus loin
Certains caractères sont communs au ERb et ERe, pour ne pas avoir à les répéter, il est préférable de les regrouper. D'autant plus que les commandes qui permettent de se servir des ER en général, reconnaissent tous les caractères communs aux ERb et ERe, excepté pour les classes qu'il faut considérer à part, et traiter cas par cas.
expressions | Modèles reconnus |
---|---|
c | Tout non métacaractère c. |
\ | Échappement du caractère spécial. Par exemple \. sélectionne un point littéral. |
^ | Test effectué au début de la chaîne. |
$ | Test effectué à la fin de la chaîne. |
. | Tout caractère sauf une fin de ligne. |
* | Zéro à n chaînes consécutives validées par l’expression régulière r. |
\< | début d'un mot (caractères pouvant faire partie de [A-Z-z0-9] |
\> | Fin d'un mot |
[liste_de_caractères] | Un caractère cité dans la liste |
[^liste_de_caractères] | Un carcatère qui n'est pas dans la liste |
1 2 Francine 2 3 Édith 3 4 Géraldine 123 AAAAAA tout le monde partout toutefois 4 5 Béatrice 5 6 Christelle 5 7 Dorothée 6 8 Amanda
la dernière ligne du fichier est vide
grep "^4" liste1-nom
4 5 Béatrice
grep "e$" liste1-nom
1 2 Francine 3 4 Géraldine 4 5 Béatrice 5 6 Christelle 5 7 Dorothée
grep "^$" liste1-nom
grep ".dith" liste1-nom
2 3 Édith
grep "A*" liste1-nom
1 2 Francine 2 3 Édith 3 4 Géraldine 123 AAAAAA 4 5 Béatrice 5 6 Christelle 5 7 Dorothée 6 8 Amanda
Attention, il ne s'agit pas du métaractère. Étoile signifie “zéro ou plusieurs 'A'”, donc toutes les lignes correspondent à zéro 'A' apparaissent aussi.
grep "123 A*" liste1-nom
123 AAAAAA
grep "[43]" liste1-nom
2 3 Édith 3 4 Géraldine 123 AAAAAA 4 5 Béatrice
les lignes comportant 4 ou 3
grep "\<tout" liste1-nom
tout le monde
grep "fois\>" liste1-nom
toutefois
grep "\<tout\>" liste1-nom
tout le monde
Pour les caractères considérés ci-dessus, il en va de même pour la commande sed que pour la commande grep.
Je ne donnerai que quelques exemples.\
Il est à noter qu sans l'option -i les exemples ne modifieront pas le fichier.
sed '/^$/ d' liste1-nom
sed -e '/A*/s/AAAAAA/abc/' liste1-nom
sed '/fois\>/ !d' liste1-nom
expressions | Modèles reconnus |
---|---|
\{m\} | m fois le caractère précédent |
\{m,\} | au moins m fois le caractère précédent |
\{m,n\} | entre m et n fois le caractère précédent |
\(ERb\) | mémorisation d'une ERb |
\1, \2, ... | Rappel de mémorisation |
→ Le caractère \
donne une signification spéciale aux parenthèses et accolades, au lieu de les rendre littérales.
[[:alnum:]] | Alpha-numerique [a-z A-Z 0-9] |
[[:alpha:]] | Alphabetic [a-z A-Z] |
[[:blank:]] | Espaces ou tabulations |
[[:cntrl:]] | Caractères de contrôle |
[[:digit:]] | Nombres [0-9] |
[[:graph:]] | Tous les caractères visibles (à l'exclusion des espaces) |
[[:lower:]] | Lettres minuscules [a-z] |
[[:print:]] | Caractères imprimables (tous caractères sauf ceux de contrôle) |
[[:punct:]] | Les caractères de ponctuation |
[[:space:]] | Les espaces |
[[:upper:]] | Les lettres majuscules [A-Z] |
[[:xdigit:]] | Chiffres hexadécimaux [0-9 a-f A-F] |
grep "[[:digit:]]" liste1-nom
1 2 Francine 2 3 Édith 3 4 Géraldine 123 AAAAAA 4 5 Béatrice 5 6 Christelle 5 7 Dorothée 6 8 Amanda
expressions | Modèles reconnus |
---|---|
? | zéro ou une fois le caractère ou le regroupement précédent |
+ | une à n fois le caractère ou regroupement précédent |
{m} | m fois le caractère précédent |
{m,} | m fois le caractère précédent |
{m,n} | entre m et n fois le caractère précédent |
( er1) | regroupement |
er1|er2|er3 | alternative |
(er)+ | Une ou plus de une chaîne(s) consécutive(s) validée(s) “er”. |
(er)* | zéro ou plus de zéro chaîne(s) consécutive(s) validée(s) par “er” |
(er)? | une chaîne bulle ou toute chaîne validée par “er”. |
[c1c2...] | Tout caractère expressément listé entre les crochets. |
[^c1c2...] | Tout caractère excepté ceux qui sont expressément listés entre les crochets. |
[c1-c2] | Tout caractère appartenant à l’intervalle c1 c2, bornes comprises. |
er1|er2 | Toute chaîne de caractères validée soit par er1 soit par er2. |
(er)(er) | Toute chaîne validée par l’expression er, chaîne vide exclue. |
(er1)(er2) | Toute chaîne de caractères de type AB, dans laquelle l’expression régulière er1 valide A et l’expression régulière er2 valide B. Avec awk uniquement |
Excepté (er1)(er2)
:
Séquences | Séquences |
---|---|
\f | Produit ou correspond à un saut |
\n | Produit ou correspond à un retour à la ligne |
\t | Produit ou correspond à un onglet horizontal |
\v | Produit ou correspond à une tabulation verticale |
\w | Synonyme de [[:alnum:]] → correspond à un mot. |
\W | Synonyme de [^[:alnum]] → ce qui autre qu'un mot. |
\b | Correspond à une chaîne vide (blanc) à l'extrémité d'un mot |
Séquences | Séquences |
---|---|
\b | backspace (supprime le dernier caractère d'une chaîne) |
\f | formfeed (nouvelle page) |
\r | carriage return (retour à la ligne) |
\t | tabulation (crée une tabulation de dix espaces) |
\c | tout caractère pris sous sa forme littérale excepté \ |
Excepté (er1)(er2)
:
Avec find et locate :
Les types actuellement implémentés sont emacs (type par
défaut), posix-awk, posix-basic, posix-egrep et posix-extended.