Vous n'êtes pas identifié(e).
L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT →
Ceci est une ancienne révision du document !
NOTA
Il s'agira de distinguer les différents usages des ERb, ERe et des classes en fonction des commandes de recherche et d'édition de fichiers GNU/linux.
Pour apprendre à utiliser les expressions rationnelles, il faut en passer par l'exercice.
Mais pour être en mesure d'en passer par l'exercice, il faut nécessairement en passer par les programmes utilisant les expressions rationnelles. C'est là que les choses se compliquent pour le néophyte.
Il faut savoir en effet que :
Cette présentation des expressions rationnelles montera comment les utiliser au moyen des commandes de recherches et d'édition de fichiers, et cela, en appréhendant seulement les expressions rationnelles POSIX de la bibliothèque REGEX.
En bref, il s'agira de présenter les types de ER qui s'utilisent en ligne de commandes ou dans des scripts shell GNU/linux.
Il y en a trois :
Les raccourcis (par exemples, retour à la ligne \n
, tabulation \t
) étant particuliers aux programmes, seront listés en complément mais ne seront pas exemplifiés.
-regextype “posix-basic”
ou ERe en précisant avec l'option -regextype “posix-extended”
- -regexp
ou ERe avec l'option - -regex
Concernant chacun de ces programmes, je n'entrerai ni dans les combinaisons possibles entre eux, ni n'approfondirai chacun d'eux en détail. Voir pour cela la documentation à leur sujet.
Les concernant, je me limiterai strictement à leur utilisation des ER.
Les métacaractères du shell (ou joker) | |
* | n'importe quelle chaîne de n'importe quels caractères |
? | un caractère quelconque et un seul |
les “bracket expression” | |
[ ] | un caractère cité dans la liste entre crochets |
[ - ] | groupe de caractères |
ls *
milou test titi titi1 titi.txt toto Toto1.txt tata tintin titi. titi1.txt tito toto. Toto.txt
ls titi?
titi. titi1
ls [Tt][io]t[io]?
titi. titi1 toto.
ls t[a-z]t[a-z]
tata titi tito toto
Il en serait de même avec les commandes echo et rm par exemple.
Les commandes de recherche de fichier, grep, find et locate, utilisent les ER mais aussi les métacaractères du shell, dont certains caractères sont homonymes à ceux des ER.
Si certains métacaractères sont identiques aux caractères des ER leur signification n'est pas la même.
Afin d'éviter toute confusion, voyons comment et dans quel contexte ces commandes utilisent les métacaractères du shell.
Imaginons qu'on cherche tous les fichiers comportant le caractère “e”.
grep -lR "e" Toto*
option -l : Ne pas afficher les résultats normaux. À la place, indiquer le nom des fichiers pour lesquels des résultats auraient été affichés.
option -R : Lire récursivement tous les fichiers à l'intérieur de chaque répertoire.
Toto.txt
grep -lR "e" titi?
titi. titi1
grep -lR "e" [Tt][io]t[io]?
titi. titi1
find ~/ERetCMD/Dossier/ -name "toto*"
/home/hypathie/ERetCMD/Dossier/toto /home/hypathie/ERetCMD/Dossier/toto.
find ~/ERetCMD/Dossier/ -name "titi?"
/home/hypathie/ERetCMD/Dossier/titi1 /home/hypathie/ERetCMD/Dossier/titi.
find ~/ERetCMD/Dossier/ -name "[Tt][io]t[io]?"
/home/hypathie/ERetCMD/Dossier/titi1 /home/hypathie/ERetCMD/Dossier/toto. /home/hypathie/ERetCMD/Dossier/titi.
# updatedb
pour effectuer les mises à jour, avant de lancer la recherche.
ls ~/ERetCMD/
Dossier liste1-nom~ server-0.xkb sort2.txt essai.grep2~ liste2-nom smolski-exo-sed.txt sort3.txt liste1-nom liste3-erb-ere sort1.txt xxx-sort.txt
Depuis n'importe où dans l'arborescence de fichiers :
locate ~/ERetCMD/*.txt
/home/hypathie/ERetCMD/smolski-exo-sed.txt /home/hypathie/ERetCMD/sort1.txt /home/hypathie/ERetCMD/sort2.txt /home/hypathie/ERetCMD/sort3.txt /home/hypathie/ERetCMD/xxx-sort.txt
Puisque tout est bien clair, nous pouvons aller plus loin, et présenter comment utiliser les programmes GNU/Linux avec chacun des trois types d'expression rationnelles
Certains caractères sont communs au ERb et ERe, pour ne pas avoir à les répéter, il est préférable de les regrouper. D'autant plus que les commandes qui permettent de se servir des expressions rationnelles, reconnaissent tous les caractères communs aux ERb et ERe, excepté pour les classes.
expressions | Modèles reconnus |
---|---|
c | Tout non métacaractère c. |
\ | Échappement du caractère spécial. Par exemple \. sélectionne un point littéral. |
^ | Test effectué au début de la chaîne. |
$ | Test effectué à la fin de la chaîne. |
. | Tout caractère sauf une fin de ligne. |
* | Zéro à n chaînes consécutives validées par l’expression régulière r. |
\< | début d'un mot (caractères pouvant faire partie de [A-Z-z0-9] |
\> | Fin d'un mot |
[liste_de_caractères] | Un caractère cité dans la liste |
[^liste_de_caractères] | Un carcatère qui n'est pas dans la liste |
Certaines commandes utilisent soit les ERb soit les ERe en fonction d'option : il s'agit de grep ; sed ; locate ; et find.
Awk utilise les ERe.
Je les présente ici, parce qu'elles utilisent toutes les caractères communs aux ERb et ERe.
Je présenterai les commandes qui utilisent seulement les ERb dans le chapitre concernant les caractères spécifiques aux ERb. Les caractères communs aux ERb et ERe étant alors suffisamment exemplifiés. De plus, les caractères spécifiques aux ERb servent à composer des expressions rationnelles plus complexes, utilisant ces caractères communs aux ERb et ERe.
-G, --basic-regexp Interpréter le MOTIF comme une expression rationnelle simple C'est le comportement par défaut.
1 2 Francine 2 3 Édith 3 4 Géraldine 123 AAAAAA tout le monde partout toutefois 4 5 Béatrice 5 6 Christelle 5 7 Dorothée 6 8 Amanda
La dernière ligne du fichier est vide.
grep "^4" liste1-nom
4 5 Béatrice
grep "e$" liste1-nom
1 2 Francine 3 4 Géraldine 4 5 Béatrice 5 6 Christelle 5 7 Dorothée
grep "^$" liste1-nom
grep ".dith" liste1-nom
2 3 Édith
grep "A*" liste1-nom
1 2 Francine 2 3 Édith 3 4 Géraldine 123 AAAAAA tout le monde partout toutefois 4 5 Béatrice 5 6 Christelle 5 7 Dorothée 6 8 Amanda
Attention, il ne s'agit pas du métacaractère. Étoile signifie “zéro ou plusieurs 'A'” ; zéro fois aussi, donc toutes les lignes dépourvues du caractère “A” apparaissent aussi, y compris la ligne vide.
grep "123 A*" liste1-nom
123 AAAAAA
grep "[43]" liste1-nom
2 3 Édith 3 4 Géraldine 123 AAAAAA 4 5 Béatrice
les lignes comportant 4 ou 3
Chaîne qui commence ni par 1, ni par 2, ni par aucun des caractères entre crochets.
grep "^[^12345678]" liste1-nom
tout le monde partout toutefois
grep "[^e]$" liste1-nom
2 3 Édith 123 AAAAAA partout toutefois 6 8 Amanda
grep "[^a-z]$" liste1-nom
123 AAAAAA
grep "\<tout" liste1-nom
tout le monde toutefois
grep "fois\>" liste1-nom
toutefois
grep "\<tout\>" liste1-nom
tout le monde
-regextype type Définir la syntaxe des expressions rationnelles des tests -regex et -iregex qui seront indiqués plus loin sur la ligne de com‐ mande. Les types actuellement implémentés sont emacs (type par défaut), posix-awk, posix-basic, posix-egrep et posix-extended.
find -regextype "posix-basic" -regex "ERb"
L'option -regextype posix-basic permet de définir le type de ER qu'on souhaite utiliser.
Il faut aussi prévenir find, qu'on va utiliser une ER avec :3)
-regex ER
-iregex motif
: Semblable à -regex, pour ne pas tenir compte de la casse (ne pas différencier les majuscules et les minuscules).
Il s'agit d'une correspondance sur le chemin complet.
Pour représenter un chemin absolu quelqu'il soit, il faut mettre en début d'expression .*
.
Je ne donnerai que quelques exemples, puisque tous les caractères de ERb sont utilisables.
Je m'attacherai surtout à la syntaxe et au contexte d'utilisation des ER relatifs à find.
ls
Dossier liste1-nom~ server-0.xkb sort2.txt essai.grep2~ liste2-nom smolski-exo-sed.txt sort3.txt liste1-nom liste3-erb-ere sort1.txt xxx-sort.txt
find -regextype "posix-basic" -regex ".*/li.*m"
./liste2-nom ./liste1-nom
Le premier groupe de.*
décrit le chemin du ou des fichiers dont le nom correspond à une chaîne commençant par “li”, suivi de plusieurs caractères (deuxième groupe.*
), puis d'un “m”.
La même commande lancée depuis un répertoire plus en amont dans la hiérarchie, par exemple, depuis le répertoire personnel de l'utilisateur,et non depuis le répertoire parent des fichiers :
find -regextype "posix-basic" -regex ".*/li.*m"
./ERetCMD/liste2-nom ./ERetCMD/liste1-nom ./.config/libreoffice/3/user/gallery/sg100.thm ./.config/libreoffice/3/user/gallery/sg30.thm
fichiers comportant un “e” ou un “s”, plusieurs caractères, un point littéral (\.), plusieurs caractères :
find -regextype "posix-basic" -regex ".*/[es].*\..*"
./smolski-exo-sed.txt ./server-0.xkb ./sort3.txt ./sort1.txt ./essai.grep2~ ./sort2.txt
--regexp
Sinon, locate reconnaît le caractère *
comme un métacaractère du shell.
Contrairement à find, il n'est pas nécessaire que la ER corresponde au chemin absolu d'un fichier.
Mais la quantité de réponses peut être très élevée, si on a une idée du répertoire dans lequel se trouve le fichier recherché, il peut plus confortable de le préciser.
On peut aussi filtrer le retour avec grep.
Enfin, avec l'utilisation de locate, le caractère début (^) est inusité.
En effet, avec une commande qui recherche des noms de fichier, la seule possibilité serait ^/
. Or locate permet justement de ne pas avoir à donner le chemin absolu du fichier recherché. L'utiliser ne ferait qu'allonger inutilement l'expression régulière !
locate --regexp '/home.*[Tt]o.*'
Donne un retour de plusieurs pages.
locate --regexp '/home.*[Tt]o.*' | grep "/Dossier/"
/home/hypathie/ERetCMD/Dossier/Toto.txt /home/hypathie/ERetCMD/Dossier/Toto1.txt /home/hypathie/ERetCMD/Dossier/tito /home/hypathie/ERetCMD/Dossier/toto /home/hypathie/ERetCMD/Dossier/toto.
locate --regexp '/home.*/Dossier/[Tt]o.*\.txt$'
/home/hypathie/ERetCMD/Dossier/Toto.txt /home/hypathie/ERetCMD/Dossier/Toto1.txt
\<
:locate --regexp '.*\<smolski.*'
/home/hypathie/ERetCMD/smolski-exo-sed.txt
Pour les caractères considérés ci-dessus, . ; *, ^, $, [liste de caractères], [^liste de caractères], \<, \>
,
il en va de même pour la commande sed que pour la commande grep.
Je ne donnerai que quelques exemples.
Il est à noter que sans l'option -i, les exemples ne modifieront pas le fichier.
Comme grep pour les caractères vues jusqu'ici :
Par exemple, supprimer la ligne vide :
sed '/^$/ d' liste1-nom
Par exemple, substituer “AAAAAA” par abc
sed '/A*/s/AAAAAA/COUCOU/' liste1-nom
1 2 Francine 2 3 Édith 3 4 Géraldine 123 COUCOU tout le monde partout toutefois 4 5 Béatrice 5 6 Christelle 5 7 Dorothée 6 8 Amanda
Par exemple, tout supprimer sauf (!
)4) la ligne correspondant à un mot finissant par “fois”
sed '/fois\>/ !d' liste1-nom
toutefois
Si la signification des caractère est la même, l'action de la commande modifie “la phrase”, ou le sens global de la ER.
Comparer l'usage des [^ ] de grep avec ce qui suit :
echo "12 f 6 7" | sed 's/^[^12345678]/coucou/g'
12 f 6 7
Il ne se passe rien car avec sed la signification de la ER est : “substitue le caractère de début de la ligne qui ne commence pas par l'un des caractères '1234567'”.
sed ne cherche pas comme grep une chaîne ou un cataère qui “ne commence pas par l'un des caractères '1234567'”, et ne substituerait pas “f” de cette manière.
Ainsi :
echo " 12 f 6 7" | sed 's/[^1-7]/X/g'
X12XXX6X7
Le sens de la ER est “substitue tout ce qui n'est pas 1, 2, 3, 4, 5, 6, 7 par “X”
Y compris les espaces !
Il ne faut donc pas s'imaginer que sed utilise une version non posix des ER, telle que la littérature à son sujet l'alimente parfois.
Ce n'est que pour ce qui concerne les implantations GNU qui ne sont pas posix, que sed présente quelques bizarreries.
Rien d'obscure et pas d'obscurantisme, tout reste logique, à condition de savoir en changer… C'est là ce qui rend passionnant l'utilisation d'un méta-langage, la possibilité de la différence par delà l'identité des éléments, au moyen du contexte !
La commande awk travail sur les colonnes, les lignes, les mots, et constitue un langage de programmation. Je ne rappellerai pas toutes les fonctions de awk mais présenterai seulement comment utiliser les ER pour une utilisation basique de cette commande.
L'usage le plus simple d'awk consiste à utiliser une ER pour sélectionner une chaîne.
Le contenu des champs sont enregistrés dans les variables $1, $2, $3, …, correspondant aux colonnes 1, 2, 3, …
Avec awk la ER est encadrée par des slash /ER/
.
echo "123 AAAAAA" | awk '/A*/{print $2}'
AAAAAA
Notez qu'il s'agit bien du caractère*
qui signifie “une ou plusieurs fois 'A', et non du métacaratère*
.
Notez encore que cet exemple est un peu surfait. Il ne sert qu'à vérifier si la ER est juste, et à rappeler la syntaxe d'utilisation d'une ER avec awk. C'est que awk ne sert pas à vérifier l'exactitude d'une ER. Au contraire la ER sert de condition (correspondance de la chaîne AAAAAA avecA*
) pour effectuer une action (ici imprimer, c'est-à-dire afficher la colonne n°2).
Néanmoins, cet exemple permet d'insister encore une fois : il est important de bien comprendre que la signification globale d'une ER dépend du contexte créé par les commandes.
Modifions l'exemple ci-dessus, afin de comparer l'utilisation d'une ER dans le contexte de awk avec celui de sed.
echo " 12 f 6 7" | sed 's/[^1-7]/X/g'
X12XXX6X7
substitution par “X” de tout ce qui n'est pas 1, 2, 3, 4, 5, 6, 7
echo "12 f 6 7" | awk '/[^12345678]/{print $2}'
f
Afficher le champ n°2 ($2
) si la ER ( “tout ce qui n'est pas 1, 2, 3, 4, 5, 6, 7”) est vraie.
Chaque commande crée un contexte différents qui détermine l'usage des ER.
Si l'utilisation des ER est souvent déprécié, c'est pour une bonne part parce que leurs différents contextes ne sont jamais mis en confrontation.
Mais une fois ces contextes précisés, et une fois s'être exercé à passer de l'un à l'autre, l'utilisation des ER devient bien plus facile.
cat liste1-nom
1 2 Francine 2 3 Édith 3 4 Géraldine 123 AAAAAA tout le monde partout toutefois 4 5 Béatrice 5 6 Christelle 5 7 Dorothée 6 8 Amanda
awk '$1 ~ /^4/' liste1-nom
Affiche la ligne ou les lignes dont la colonne n°1 correspond à la ER (“qui commence par 4”).
4 5 Béatrice
L'action par défaut est print, s'il aucune action n'est mentionnée et que la condition est vraie.
~
est un opérateur de correspondance entre une ER et une variable.<
; >
; ==
…
awk '$3 ~ /ce$/' liste1-nom
4 5 Béatrice
awk '$3 ~ /.d.*/' liste1-nom
Affiche la ou les lignes dont le troisième champ (colonne) comporte une chaîne correspondant à “un caractère (.
), suivi d'und
, suivi d'un ou plusieurs caractères (.*
).
2 3 Édith 3 4 Géraldine tout le monde 6 8 Amanda
awk '$3 ~/t[h]/' liste1-nom
Affiche la ou les lignes dont la chaîne correspond à la ER “t” ou “th”
2 3 Édith 5 7 Dorothée
awk '$1 ~ /^[^12345678]/' liste1-nom
tout le monde partout toutefois
!~
propre à awk :awk '$1 !~ /^[12345678]/' liste1-nom
tout le monde partout toutefois
La seule différence entre$1 ~ /^[^12345678]/
et$1 !~ /^[12345678]/
, c'est que la deuxième ER affichera une ligne vide, et non la première.
awk '$1 ~ /fois\>/' liste1-nom
toutefois
Les commandes utilisent les caractères spécifiques aux expressions rationnelles basiques:
grep (ou grep -G) ; find -regextype “posix-basic” ; locate –regexp ; sed (sans option) ; vi (vim) ; expr
expressions | Modèles reconnus |
---|---|
\{m\} | m fois le caractère précédent |
\{m,\} | au moins m fois le caractère précédent |
\{m,n\} | entre m et n fois le caractère précédent |
\(ERb\) | mémorisation d'une ERb |
\1, \2, ... | Rappel de mémorisation |
Les commandes grep, vi (vim), locate, find utilisent aussi les caractères spécifiques suivants :
\? | zéro ou une fois l'élément précédent |
\+ | une ou plusieurs fois l'élément précédent |
\| | alternative |
→ Le caractère \
donne une signification spéciale aux parenthèses et accolades, ?, +, | au lieu de les rendre littérales.
Mais il permet de rendre littéraux les autres caractères des ERb, par exemple \.
permet de sélectionner un point.
Je ne ferai ici qu'un bref rappel des autres commandes qui peuvent utiliser (en changeant d'option) les ERe plus lisibles5).
Soit le fichier ”liste4-spec” :
cat liste4-spec
gdd:a:aa:aaa:aaaa:aaaaaa:aaaaaaaa T5c Kc5 T5 c E2* abcd 7 9Abcd 7 1AAA.AAA.bcdef aBcd6a 123* abc2356.99 73000|Savoie index-tel|04|Rhône-Alpe -15 +36 5687 {15} exemple{36} il y a un truc et un truc et encore un truc et une chose chose et truc ne font pas bon ménage 123.3456.abc trucchosetruc tructructruc chosechosechose
expr chaîne-de-caractères : expression-rationnelle-basique
:
pour mettre en correspondance une chaîne de caractères avec une ER.^
est toujours implicite.\( \)
la commande expr affiche dans le terminal la partie correspondante.var=123
expr "$var" : '[0-9]*$'
3
“3” ne doit pas être confondu avec un code de retour, c'est le nombre de caractères de la variable qui correspondent à ER.
echo $?
0
La correspondance est vraie : code de retour “0”.
La variable comporte bien 3 caractères 1, 2, et 3 et non le chiffre “123”; il s'agit d'une comparaison sur chaîne de caractères.
var="les bonbons, c'est bon"
expr "$var" : 'bons\>'
0
zéro est le nombre de caractère correspondant
echo $?
1
Le chiffre “1” est le code de retour.
var="les bonbons, c'est bon"
expr "$var" : '\(.*bons\>\),'
les bonbons
Demander le code de retour est inutile, la ER est forcément juste, s'il y a affichage de la sous-chaîne correspondante. À moins d'en avoir besoin lors d'une utilisation de expr dans un script shell s'en servant pour un test.
var=123.456.
expr "$var" : '\([0-9]\{3\}.\)\{2\}'
456.
expr affiche la sous-chaîne “456.”
*
est gourmand :var="hypathie|00 rue Debian-facile|01011|ici"
expr "$var" : '\(.*\)|'
hypathie|00 rue Debian-facile|01011
cat liste4-vim
Kc5 T5 c E2* abcd 7 9Abcd 7 1AAA.AAA.bcdef aBcd6a 123* abc2356.99 73000|Savoie index-tel|04|Rhône-Alpe -15 +36 5687 {15} exemple{36} il y a un truc et un truc et encore un truc et une chose chose et truc ne font pas bon ménage 123.3456.abc trucchosetruc tructructruc chosechosechose
vim liste4-vim
:wq
et touche <entrée>\? | zéro ou une fois l'élément précédent |
\+ | une ou plusieurs fois l'élément précédent |
\| | alternative |
vimtutor
→ Pour y ajouter l'utilisation des ER, suivre ce qui suit.
/expression-rationnelle-basique
:[adresse[,adresse]]s/expression-rationnelle-basique/remplacement/[drapeau]
:adresse%s/chaine_a_remplacer/chaine_de_remplacement/
/^chose
On appuie sur la touche shift+: pour inscrire /
, on inscrit sa ER, on valide avec la touche “entrée”. vi ou vim surligne toutes les occurrences de “chose” qui sont en début de ligne.
nohlsearch
Pour retirer la surbrillance de la recherche.
/chose$
On valide avec entrée, et nohlsearch
pour effacer
\([0-9]\{3\}.\)\{2\}
Vi ou vim surligne à la ligne 9 (comportant “123.3456.abc”) la sous-chaîne 123.3456.
.
:s/[Ss]/XXX/g
Substitue les caractères “S” ou “s” à la ligne du curseur et surligne toutes les occurrences potentiellement substituables.
nohlsearch
pour retirer la surbrillance.
puis pour annuler la substitution “Échap”, puis appuyer sur la lettre “u” (“u” pour annuler un seul changement, “U” pour annuler plusieurs changement sur une ligne.
:1,$s/[Ss]/XXX/g
“1,$” est l'adressage qui signifie de la première ligne à la fin
/c\|t
surligne tous les “c” et tous les “t” du fichier.
/\.[0-9]\?
→Une image vaut mieux qu'une description :
/[A-Z]\+
Pour plus de détail sur vi et vim et l'utilisation des REGEX, voir :
Les commandes grep et sed sans option, les commandes locate –regexp et find -regextype “posix-basic” avec option utilisent les caractères spécifiques aux ERb.
Puisqu'il est plus pratique de les utiliser avec les ERe qui sont plus lisibles, je n'en donnerai que quelques exemples ici.
gdd:a:aa:aaa:aaaa:aaaaaa:aaaaaaaa T5c Kc5 T5 c E2* abcd 7 9Abcd 7 1AAA.AAA.bcdef aBcd6a 123* abc2356.99 73000|Savoie 123456 1234567 index-tel|04|Rhône-Alpe -15 +36 5687 {15} exemple{36} il y a un truc et un truc et encore un truc et une chose choses et trucs ne font pas bon ménage 123.3456.abc trucschosetruc tructructrucs chosechosechose
grep "1A\{3\}\.A\{3\}\..*" liste4-spec
7 1AAA.AAA.bcdef aBcd6a 123*
grep "\(1A\{3\}\.\)\+.*" liste4-spec
7 1AAA.AAA.bcdef aBcd6a 123*
grep "[0-9]\{1,3\}" liste4-spec
T5c Kc5 T5 c E2* abcd 7 9Abcd 7 1AAA.AAA.bcdef aBcd6a 123* abc2356.99 73000|Savoie index-tel|04|Rhône-Alpe -15 +36 5687 {15} exemple{36} 123.3456.abc
grep "[0-9]\{4,\}" liste4-spec
abc2356.99 73000|Savoie -15 +36 5687 {15} exemple{36} 123.3456.abc
grep "\( [0-9]\{4\}\)" liste4-spec
-15 +36 5687 {15} exemple{36}
grep "trucs\?" liste4-spec
il y a un truc et un truc et encore un truc et une chose choses et trucs ne font pas bon ménage trucschosetruc tructructrucs
On cherche les lignes qui comporte “truc” au singulier ou au pluriel.
La syntaxe est la même que pour les caractères communs aux ERe.
echo "coucou Hello Yep" | sed 's/[A-Z]\{1\}[a-z]\{4\}/OK/g'
coucou OK Yep
echo "a aa aaa aaaa aaaaaa aaaaaaaa" | sed -e 's/\(a\{1\} \)/OK/'\ -e 's/\(a\{2\} \)/OK/'
OKOKaaa aaaa aaaaaa aaaaaaaa
Dans le répertoire de l'utilisateur et dans le dosssier “ERetCMD/” :
touch image\ linux\ -\ 01.jpg image\ linux\ -\ 02.jpg image\ linux\ -\ 03.jpg
ls
Dossier img-perso-1.jpg liste3-erb-ere smolski-exo-sed.txt essai.grep2~ img-perso-2.jpg liste4-spec sort1.txt image linux - 01.jpg liste1-nom liste4-spec~ sort2.txt image linux - 02.jpg liste1-nom~ liste4-vim sort3.txt image linux - 03.jpg liste2-nom server-0.xkb xxx-sort.txt
updatedb
locate --regexp '.*\([a-z]\{1,\} \)\{2\}.*\.jpg$'
/home/Téléchargements/Les utilitaires awk, nawk et gawk - Tutoriel_fichiers/logo.jpg /home/hypathie/ERetCMD/image linux - 01.jpg /home/hypathie/ERetCMD/image linux - 02.jpg /home/hypathie/ERetCMD/image linux - 03.jpg
Dans le répertoire de l'utilisateur et dans le dossier “ERetCMD/”
touch img-perso-1.jpg img-perso-2.jpg
find -regextype "posix-basic" -regex ".*/[a-z]\{,3\}-.*\.jpg$"
./img-perso-2.jpg ./img-perso-1.jpg
[[:alnum:]] | Alpha-numerique [a-z A-Z 0-9] |
[[:alpha:]] | Alphabetic [a-z A-Z] |
[[:blank:]] | Espaces ou tabulations |
[[:cntrl:]] | Caractères de contrôle |
[[:digit:]] | Nombres [0-9] |
[[:graph:]] | Tous les caractères visibles (à l'exclusion des espaces) |
[[:lower:]] | Lettres minuscules [a-z] |
[[:print:]] | Caractères imprimables (tous caractères sauf ceux de contrôle) |
[[:punct:]] | Les caractères de ponctuation |
[[:space:]] | Les espaces |
[[:upper:]] | Les lettres majuscules [A-Z] |
[[:xdigit:]] | Chiffres hexadécimaux [0-9 a-f A-F] |
La commande grep utilise les classes soit comme ERb et soit comme ERe, c'est-à-dire sans l'option -E ou avec l'option -E
cat liste-class
gdd:a:aa:aaa:aaaa:aaaaaa:aaaaaaaa T5c Kc5 T5 c E2* abcd 7 9Abcd 7 1AAA.AAA.bcdef aBcd6a 123* abc2356.99 73000|Savoie 123456 1234567 index-tel|04|Rhône-Alpe -15 +36 5687 {15} exemple{36} 123.3456.abc
grep "[[:digit:]]\{4\}" liste-class
abc2356.99 73000|Savoie 123456 1234567 -15 +36 5687 {15} exemple{36} 123.3456.abc
sélection de “3456” ; “5687” ; de “2356” ; et des lignes avec plus de 4 chiffres consécutif.
grep "[[:digit:]]\{6\}" liste-class
123456 1234567
Sélectionne les lignes comportant 6 chiffres consécutifs et de 7 chiffres.
grep sélectionne les lignes lorsqu'il trouve exactement 4 chiffres sans se préoccuper de ce qu'il y a après, même s'il y a d'autres chiffres. En réalité, c'est à nous de préciser avec la ER qu'il faut tenir compte de ce qu'il y a après cet “exactement 6 chiffres”.
Les classes servent à décrire des sous-chaînes ou des lignes entières plus facilement et ne relèvent pas des expressions rationnelles dites “atomiques”.
grep -E "[[:digit:]]{6}" liste-class
123456 1234567
grep "\([[:digit:]]\{4\}\)[\. ]" liste-class
abc2356.99 -15 +36 5687 {15} exemple{36} 123.3456.abc
grep -E "([[:digit:]]{4})[\. ]" liste-class
abc2356.99 -15 +36 5687 {15} exemple{36} 123.3456.abc
Dans l'exemple ci-dessus, avec les ERe, on pourrait remplacer[\. ]
par(\.| )
ls
Dossier img-perso-1.jpg liste3-erb-ere smolski-exo-sed.txt essai.grep2~ img-perso-2.jpg liste4-spec sort1.txt image linux - 01.jpg liste1-nom liste4-spec~ sort2.txt image linux - 02.jpg liste1-nom~ liste4-vim sort3.txt image linux - 03.jpg liste2-nom server-0.xkb xxx-sort.txt
Option –regexp et on met un antislash de toutes les parenthèses et les accolades.
locate --regexp '.*\([[:lower:]]\{4,5\} \)\{2\}.*\.jpg$'
/home/hypathie/ERetCMD/image linux - 01.jpg /home/hypathie/ERetCMD/image linux - 02.jpg /home/hypathie/ERetCMD/image linux - 03.jpg
Idem mais avec option –regex et on enlève les\
inutiles avec les ERe
locate --regex '.*([[:lower:]]{4,5} ){2}.*\.jpg$'
/home/hypathie/ERetCMD/image linux - 01.jpg /home/hypathie/ERetCMD/image linux - 02.jpg /home/hypathie/ERetCMD/image linux - 03.jpg
option : -regextype “posix-basic”
find -regextype "posix-basic" -regex ".*/[[:lower:]]\{,3\}-.*\.jpg$"
./img-perso-2.jpg ./img-perso-1.jpg
option : -regextype “posix-extended” et on enlève \
devant accolades ou parenthèses
find -regextype "posix-extended" -regex ".*/[[:lower:]]{,3}-.*\.jpg$"
./img-perso-2.jpg ./img-perso-1.jpg
echo "123ab efab ef123" | sed -r 's/(ab[[:blank:]]ef){2}/OK/'
123OK123
echo "a aa aaa " | sed -r 's/([[:alpha:]])/1/g'
1 11 111
Il ne s'agit que de donner le détail des commandes quant à l'utilisation des ER.
Remarquons au passage la différence avec et sans le flagsg
qui applique “partout”.
Et encore une fois l'effet d'une ER dépend de ce que fait la commande
echo "a aa aaa " | sed -r 's/(a{1}[[:alpha:]])/2/g'
a 2 2a
Pour “protéger” le premier caractère “a”, on substitue en “remettant” un “a” !
echo "abc 123" | sed -r 's/^([[:alpha:]]*) ([[:digit:]]*)/\2 \1/'
123 abc
echo "abc 123 hij" | sed -r 's/([[:alpha:]]*) ([[:digit:]]*) ([[:alpha:]]*)/x x \2/'
x x 123
var=123
expr "$var" : '[[:digit:]]*$'
3
var="hypathie|00 rue Debian-facile|01011|ici"
expr "$var" : '^[[:alpha:]]*|\([[:digit:]]*\).*\([[:digit:]]*\)$'
00
vim liste4-vim
Kc5 T5 c E2* abcd 7 9Abcd 7 1AAA.AAA.bcdef aBcd6a 123* abc2356.99 73000|Savoie index-tel|04|Rhône-Alpe -15 +36 5687 {15} exemple{36} il y a un truc et un truc et encore un truc et une chose chose et truc ne font pas bon ménage 123.3456.abc trucchosetruc tructructruc chosechosechose
/[[:alnum:]]\{7\}\.[[:digit:]]\{2\}
→ sélectionne entièrement la ligne abc2356.99
:3,4s/[[:graph:]]/x/g
→ les ligne 3 et 4 ne présentent plus que des “x”, tous les caractères susceptibles d'être concernés par la ER sont surlignés, c'est-à-dire tous le texte sauf les espaces.
→ Information sur les substitutions : 22 substitutions, sur 2 lignes
cat liste2-nom
Constance 20-03-1998 Rebecca 09-03-1999 Natanaël 01-08-2000 Alexis 21-01-2002 Hélène-Fleur 06-03-2005 Samuel 27-08-2008
awk '/S[[:lower:]]*/' liste2-nom
Samuel 27-08-2008
awk '$2 ~ /([[:digit:]]{2}-){2}2005$/' liste2-nom
Hélène-Fleur 06-03-2005
expressions | Modèles reconnus |
---|---|
? | zéro ou une fois le caractère ou le regroupement précédent |
+ | une à n fois le caractère ou regroupement précédent |
{m} | m fois le caractère précédent |
{m,} | m fois le caractère précédent |
{m,n} | entre m et n fois le caractère précédent |
( er1) | regroupement |
er1|er2|er3 | alternative |
(er)+ | Une ou plus de une chaîne(s) consécutive(s) validée(s) “er”. |
(er)* | zéro ou plus de zéro chaîne(s) consécutive(s) validée(s) par “er” |
(er)? | une chaîne bulle ou toute chaîne validée par “er”. |
[c1c2...] | Tout caractère expressément listé entre les crochets. |
[^c1c2...] | Tout caractère excepté ceux qui sont expressément listés entre les crochets. |
[c1-c2] | Tout caractère appartenant à l’intervalle c1 c2, bornes comprises. |
er1|er2 | Toute chaîne de caractères validée soit par er1 soit par er2. |
(er)(er) | Toute chaîne validée par l’expression er, chaîne vide exclue. |
(er1)(er2) | Toute chaîne de caractères de type AB, dans laquelle l’expression régulière er1 valide A et l’expression régulière er2 valide B. Avec awk uniquement |
Excepté (er1)(er2)
:
grep -E "1([A-Z]){2}.*" liste4-spec
7 1AAA.AAA.bcdef aBcd6a 123*
-regextype type Définir la syntaxe des expressions rationnelles des tests -regex et -iregex qui seront indiqués plus loin sur la ligne de com‐ mande. Les types actuellement implémentés sont emacs (type par défaut), posix-awk, posix-basic, posix-egrep et posix-extended.
find -regextype "posix-extended" -regex "ERe"
Séquences | Séquences |
---|---|
\f | Produit ou correspond à un saut |
\n | Produit ou correspond à un retour à la ligne |
\t | Produit ou correspond à un onglet horizontal |
\v | Produit ou correspond à une tabulation verticale |
\w | Synonyme de [[:alnum:]] → correspond à un mot. |
\W | Synonyme de [^[:alnum]] → ce qui autre qu'un mot. |
\b | Correspond à une chaîne vide (blanc) à l'extrémité d'un mot |
Séquences | Séquences |
---|---|
\b | backspace (supprime le dernier caractère d'une chaîne) |
\f | formfeed (nouvelle page) |
\r | carriage return (retour à la ligne) |
\t | tabulation (crée une tabulation de dix espaces) |
\c | tout caractère pris sous sa forme littérale excepté \ |
Excepté (er1)(er2)
:
Options nécessaires avec find et locate :
whereis awk
ls -l /usr/bin/awk
ls -l /etc/alternatives/awk
-name
\
devant parenthèses, accolades, +, ? et |