Debian Debian-France Debian-Facile Debian-fr.org Forum-Debian.fr Debian ? Communautés

Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).

Contributions : Récentes | Sans réponse

L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT →

Ceci est une ancienne révision du document !

Table des matières

Introduction
Les expressions rationnelles basiques et les commandes GNU/Linux
Caractères spécifiques aux ERb et ERe
- Caractères spécifiques aux ERb
- Caractères spécifiques aux ERe
Les commandes expr et vi et les caractères spécifiques aux ERb
- La commande expr n'utilise que ERb
  - Exemple
- L'éditeur de texte vi et les caractères spécifiques aux ERb
Caractères spécifiques aux ERb ou caractères spécifiques aux ERe
Les classes

Les expressions rationnelles sous le jour des commandes

Objet : maîtriser les expressions rationnelles basiques et étendues ainsi que les classes POSIX
Niveau requis : avise
Commentaires : utiliser les expressions rationnelles basiques, étendues, les classes avec grep, grep -E, find, locate, expr, vi, sed et awk.

NOTA
Il s'agira de distinguer les différents usages des ERb, ERe et des classes en fonction des commandes de recherche et d'édition de fichiers GNU/linux.

Introduction

Il faut savoir en effet que :

qu'il y a plusieurs types d'expressions rationnelles, celles reposant sur la bibliothèque REGEX, celles reposant sur la bibliothèque PCRE.

qu'il y a différents programmes qui utilisent soit l'une, soit l'autre bibliothèque par exemple grep, expr, awk, Perl, Tcl, Python… Je ne parlerai que de ceux pouvant utiliser la bibliothèque REGEX.

Certains des métacaractères reconnus par les shells UNIX (bash, ksh, csh, sh, etc.), sont homonymes avec certains caractères des ER, et qui plus est, ils servent le même objectif de fournir des motifs de recherche. Mais ils ne font pas partie de ce qu'on appelle les expressions rationnelles et ne doivent pas être confondus avec elles.
J'insisterai sur ce point pour éviter la confusion.

La syntaxe d'utilisation des ER n'est pas la même d'un programme à l'autre. C'est ce qui motive la rédaction de cette page. Il faut forcément maîtriser la manière d'utiliser les ER pour chacun des programmes pour pouvoir les utiliser. Mettre ces différences en avant démystifiera la difficulté attribuée à l'usage des expressions rationnelles.

Enfin, les différents programmes susceptibles d'utiliser toutes les ER de la bibliothèque REGEX, vi, expr, grep, egrep, find, locate, sed, awk, etc., bien que pouvant tous utiliser la norme POSIX, transforment le contexte d'utilisation de l'ER et par conséquent, l'utilisation d'une même ER n'a plus le même effet d'un programme à l'autre.
C'est là un point crucial, rarement mis en avant et qu'il est pourtant nécessaire de soulever, pour des raisons pédagogiques, mais aussi pour des raisons philosophiques que je ne développerai pas.
Le fondement en est simplement la conviction que le dédain envers la diversité, tandis qu'un méta-langage est par définition l'unité cachée derrière tout genre de multiple, est une tentative qui s'ignore de ramener le méta-langage lui-même à une simple symbolisation du langage, et par conséquent, une tentative intéressée d'instrumentaliser la raison.

Cette présentation des expressions rationnelles montera comment les utiliser au moyen des commandes de recherches et d'édition de fichiers, et cela, en appréhendant seulement les expressions rationnelles POSIX de la bibliothèque REGEX.
En bref, il s'agira de présenter les types de ER qui s'utilisent en ligne de commandes ou dans des scripts shell GNU/linux.

Les types de ER

Il y en a trois :

expression rationnelle basique (ERb); appelées aussi “Basic Regular Expression” (BRE)

expression rationnelle étendue (ERe); appelées aussi “Extended Regular Expression” (ERE)

les classes POSIX (considérer soit comme ERb, soit comme ERe selon les programmes

Les raccourcis (par exemples, retour à la ligne \n, tabulation \t) étant particuliers aux programmes, seront listés en complément.

Panorama exhaustif des programmes GNU/Linux concernés par les expressions rationnelles

expr : ERb
pour la correspondance de chaîne de caractères avec une expression régulière.
grep : ERb
sélectionne par la ER, la ou les lignes d'un ou plusieurs fichiers comportant le motif. grep peut aussi rechercher les fichiers contenant le motif.
grep -E ou egrep : ERe
Même usage que grep
find : ERb en le précisant avec l'option -regextype “posix-basic” ou ERe en précisant avec l'option -regextype “posix-extended”
rechercher de fichier en fonction du motif spécifié par la ER.
locate : ERb avec l'option - -regexp ou ERe avec l'option - -regex
recherche de fichiers selon un motif dans la base de données.
vi : ERb
recherche et substitution de chaîne de caractères.
sed : ERb
par exemple, sélectionne, modifie les chaînes d'un fichier ou de l'affichage en se basant sur les colonnes. La ER permet de sélectionner quelle(s) colonne(s) est (sont) concernée(s).
sed -r : ERe
même usage que sed.
awk¹⁾ : ERe
sélectionne les colonnes, lignes, mots d'un fichier, et modifie l'affichage, le fichier, etc. en utilisant la ER comme condition de l'action qu'on choisit.

Concernant chacun de ces programmes, je n'entrerai ni dans les combinaisons possibles entre eux, ni n'approfondirai chacun d'eux en détail. Voir pour cela la documentation à leur sujet.
Les concernant, je me limiterai strictement à leur utilisation des ER.

Pour ne plus confondre "métacaractères" du shell et caractères des ER

Rappel des caractères du shell servant au "globbing"

“métacaractères”	significations	exemples
Les métacaractères du shell (ou joker)
*``**	n'importe quelle chaîne de n'importe quels caractères	`ls b` liste* b b2 bibi bobo bidule … mais pas titi to …
`?`	un caractère quelconque et un seul	`rm tit?` supprime tito titi tit~ … mais pas tintin titi.txt …
les “bracket expression”
`[ ]`	un caractère cité dans la liste entre crochets	`echo [Tt][io]t[io]`²⁾ affiche les fichiers Toto Tito toto toti … mais pas loto …
`[ - ]` [a-z] [A-Z] [A-Z] [0-9]	groupe de caractères	`head t[a-z]to` affiche titi tito toto … mais pas tOto t5to

Métacaractère ou caractère d'expression rationnelle ?

L'étoile :

Imaginons qu'on cherche tous les fichiers contenant le caractère “e”.

grep -lR "e" Toto*

option -l : Ne pas afficher les résultats normaux. À la place, indiquer le nom des fichiers pour lesquels des résultats auraient été affichés.
option -R : Lire récursivement tous les fichiers à l'intérieur de chaque répertoire.
Ce qui concerne la recherche dans le contenu du fichier est indiqué par le motif entre guillemets (“e”). C'est là qu'il faudra avec grep placer l'expression rationnelle. Le motif “e” en est d'ailleurs une.
Le caractère “*” est le métacaractère qui signifie “nom de fichier commençant par “Toto” avec n'importe quel autre caractère après ou pas.

Le caractère ?

grep -E "[ae]n.?" titi?

titi.:dans
titi1:en
titi2:dent

Cela signifie qu'on recherche dans les fichiers commençant par titi suivi d'un seul caractère exactement, et dans lequel on cherche les mots comportant la diphtongue ɑ̃ qui s'écrit “an” ou “en” ; l'expression rationnelle décrit ainsi : chaîne composée de “a” ou “e”, suivi de “n”, suivi d'un seul caractère ou non.
Le ? est un caractère d'expressions rationnelles et signifie “le caractère précédent (ou le groupement précédent) zéro ou une fois. Ici le caractère précédent est le “point”, c'est-à-dire un caractère quelconque.
Il faut grep -E car le ? fait partie des expressions rationnelles étendues.
On peut aussi faire grep ”[ae]n.\?” titi? car grep utilise par défaut les expressions rationnelles basiques qui nécessitent \ devant certains caractères.

Les crochets ont la même signification en tant que métacaractère et en tant que ER

Pour trouver dans les fichiers commençant par “T” ou “t” suivi de “i” ou “o” suivi d'un “t” suivi de “i” ou “o” suivi d'un caractère quelconque et un seul ;
Une chaîne comportant “T” ou “t” suivi de “i” ou “o” suivi d'un “t” suivi de “i” ou “o” :

grep "[Tt][io]t[io]" [Tt][io]t[io]?

titi.:Toto Titi toto titi tito
titi1:Toto titi toto tito
titi2:Toto Titi
toto.:Toto titi toto tito

Le point n'est pas un métacaractère :

mais c'est un caractère des expressions rationnelles.
Ainsi la ligne signifie : rechercher un point littéral³⁾ dans les fichiers commençant soit par “T” soit par “t”, suivi de plusieurs caractères, et finissant par “txt”

grep "\." [Tt]*.txt

titi1.txt:.
Toto1.txt:.

Métacaractères du shell et commandes utilisant les expressions rationnelles

Parmi les commandes GNU/Linux utilisant les expressions rationnelles, d'autres commandes que grep ou grep -E utilisent aussi les métacaractères.

Il s'agit de find et locate.

find

find ~/ERetCMD/Dossier/ -name "toto*"

/home/hypathie/ERetCMD/Dossier/toto
/home/hypathie/ERetCMD/Dossier/toto.

find ~/ERetCMD/Dossier/ -name "titi?"

/home/hypathie/ERetCMD/Dossier/titi1
/home/hypathie/ERetCMD/Dossier/titi.

find ~/ERetCMD/Dossier/ -name "[Tt][io]t[io]?"

/home/hypathie/ERetCMD/Dossier/titi1
/home/hypathie/ERetCMD/Dossier/toto.
/home/hypathie/ERetCMD/Dossier/titi.

locate

Pour utiliser locate, qui fonctionne à partir de la base de donnée, faire un petit :

 # updatedb

pour effectuer les mises à jour, avant de lancer la recherche.

Soit le répertoire “~/ERetCMD/”

ls ~/ERetCMD/

Dossier       liste1-nom~     server-0.xkb	   sort2.txt
essai.grep2~  liste2-nom      smolski-exo-sed.txt  sort3.txt
liste1-nom    liste3-erb-ere  sort1.txt		   xxx-sort.txt

Rechercher les fichiers dont le nom est “un ou plusieurs caractères suivi de ”.txt“ :

Depuis n'importe où dans l'arborescence de fichiers :

locate ~/ERetCMD/*.txt

/home/hypathie/ERetCMD/smolski-exo-sed.txt
/home/hypathie/ERetCMD/sort1.txt
/home/hypathie/ERetCMD/sort2.txt
/home/hypathie/ERetCMD/sort3.txt
/home/hypathie/ERetCMD/xxx-sort.txt

sed et awk
Ces commandes étant faites pour travailler le contenu des fichiers, et non pour la recherche de fichiers, elles n'utilisent pas les métacaractères du shell.

Puisque tout est bien clair, nous pouvons aller plus loin, et présenter comment utiliser les programmes GNU/Linux permettant d'utiliser les expressions rationnelles. Cela permettra aussi, non seulement de distinguer ERb, ERe et classes, mais encore de comprendre par leurs usages l'intérêt de conserver ces différents types.

Les expressions rationnelles basiques et les commandes GNU/Linux

Caractères communs aux ERb et ERe

Certains caractères sont communs au ERb et ERe.
Pour ne pas avoir à les répéter, il est préférable de les regrouper. D'autant plus que les commandes qui permettent de se servir des expressions rationnelles, reconnaissent tous les caractères communs aux ERb et ERe.

Certaines commandes utilisent soit les ERb soit les ERe en fonction d'option :
il s'agit de grep ; sed ; locate ; et find.

awk (gawk) utilise les ERe.

vi (vim) et expr n'utilisent que les ERb.

expressions	Modèles reconnus
c	Tout non métacaractère c.
`\`	Échappement du caractère spécial. Par exemple `\.` sélectionne un point littéral.
`^`	Test effectué au début de la chaîne.
`$`	Test effectué à la fin de la chaîne.
`.`	Tout caractère sauf une fin de ligne.
*``**	Zéro à n chaînes consécutives validées par l’expression régulière r.
`\<`	début d'un mot (caractères pouvant faire partie de [A-Z-z0-9]
`\>`	Fin d'un mot
`[liste_de_caractères]`	Un caractère cité dans la liste
`[^liste_de_caractères]`	Un carcatère qui n'est pas dans la liste

La commande grep et les caractères communs aux ERb et ERe

Sans option ou avec l'option -G, grep utilise les expressions rationnelles basiques.

grep

-G, --basic-regexp
    Interpréter le MOTIF comme  une  expression  rationnelle  simple
    C'est le comportement par défaut.

Pour l'utilisation de grep (grep -G ou grep -E) avec soit les caractères spécifiques aux ERb, soit les caractères spécifiques aux ERe, voir "grep -E (egrep) et les caractères spécifiques aux ERe".

Soit le fichier “liste1-nom” :

1 2 Francine
2 3 Édith
3 4 Géraldine
123 AAAAAA
tout le monde
partout
toutefois
4 5 Béatrice
5 6 Christelle
5 7 Dorothée
6 8 Amanda

La dernière ligne du fichier est vide.

le caractère début de ligne ^

grep "^4" liste1-nom

4 5 Béatrice

le caractère fin de ligne $

grep "e$" liste1-nom

1 2 Francine
3 4 Géraldine
4 5 Béatrice
5 6 Christelle
5 7 Dorothée

pour sélectionner une ligne vide :

grep "^$" liste1-nom

le point

grep ".dith" liste1-nom

2 3 Édith

l'étoile

grep "A*" liste1-nom

1 2 Francine
2 3 Édith
3 4 Géraldine
123 AAAAAA
tout le monde
partout
toutefois
4 5 Béatrice
5 6 Christelle
5 7 Dorothée
6 8 Amanda

Attention, il ne s'agit pas du métacaractère. Étoile signifie “zéro ou plusieurs 'A'” ; zéro fois aussi, donc toutes les lignes dépourvues du caractère “A” apparaissent aussi, y compris la ligne vide.

grep "123 A*" liste1-nom

123 AAAAAA

les crochets

grep "[43]" liste1-nom

2 3 Édith
3 4 Géraldine
123 AAAAAA
4 5 Béatrice

les lignes comportant 4 ou 3

le caractère d'exclusion d'une liste [^ ]

Chaîne qui commence ni par 1, ni par 2, ni par aucun des caractères entre crochets.

grep "^[^12345678]" liste1-nom

tout le monde
partout
toutefois

Chaîne qui ne se termine pas par le caractère “e”.

grep "[^e]$" liste1-nom

2 3 Édith
123 AAAAAA
partout
toutefois
6 8 Amanda

Chaîne qui ne se termine pas l'un des caractères de l'intervalle

grep "[^a-z]$" liste1-nom

123 AAAAAA

Le caractère début de mot \<

grep "\<tout" liste1-nom

tout le monde
toutefois

Le caractère fin de mot \>

grep "fois\>" liste1-nom

toutefois

Un mot exactement \<mot\>

grep "\<tout\>" liste1-nom

tout le monde

La commande find et les caractères communs aux ERb et ERe

find

-regextype type
        Définir la syntaxe des expressions rationnelles des tests -regex
        et -iregex qui seront indiqués plus loin sur la  ligne  de  com‐
        mande. Les  types actuellement implémentés sont emacs (type par
        défaut), posix-awk, posix-basic, posix-egrep et posix-extended.

Avec find il faut toujours une option pour utiliser une ER.

Pour une expression rationnelle basique :

find -regextype "posix-basic" -regex "son-expression-rationnelle-basique"

Pour une expression rationnelle étendue :

find -regextype "posix-extended" -regex "son-expression-rationnelle-étendue"

Il faut aussi prévenir find, qu'on va utiliser une ER avec :⁴⁾
- -regex ER
- -iregex motif : Semblable à -regex, pour ne pas tenir compte de la casse (ne pas différencier les majuscules et les minuscules).

Il s'agit d'une correspondance sur le chemin complet.
Pour représenter un chemin absolu quelque soit-il, il faut ajouter en début d'expression .*.

Je ne donnerai ici quelques exemples d'utilisation des caractères communs aux ERb et ERe, en tant que caractères ERb, afin d'illustrer l'utilisation de find avec l'option -regextype “posix-basic.

Pour l'utilisation des caractères spécifiques aux ERb ou des caractères spécifiques aux ERe avec find, voir : "find et les caractères spécifiques aux ERe".

Soit le répertoire parent des fichiers listés ci-dessous :

ls

Dossier       liste1-nom~     server-0.xkb	   sort2.txt
essai.grep2~  liste2-nom      smolski-exo-sed.txt  sort3.txt
liste1-nom    liste3-erb-ere  sort1.txt		   xxx-sort.txt

caractères point et étoiles :

find -regextype "posix-basic" -regex ".*/li.*m"

./liste2-nom
./liste1-nom

Le premier groupe de .* décrit le chemin du ou des fichiers dont le nom correspond à une chaîne commençant par “li”, suivi de plusieurs caractères (deuxième groupe .*), puis d'un “m”.

La même commande lancée depuis un répertoire plus en amont dans la hiérarchie, par exemple, depuis le répertoire personnel de l'utilisateur,et non depuis le répertoire parent des fichiers :

find -regextype "posix-basic" -regex ".*/li.*m"

./ERetCMD/liste2-nom
./ERetCMD/liste1-nom
./.config/libreoffice/3/user/gallery/sg100.thm
./.config/libreoffice/3/user/gallery/sg30.thm

Avec les crochets :

fichiers comportant un “e” ou un “s”, plusieurs caractères, un point littéral (\.), plusieurs caractères :

find -regextype "posix-basic" -regex ".*/[es].*\..*"

./smolski-exo-sed.txt
./server-0.xkb
./sort3.txt
./sort1.txt
./essai.grep2~
./sort2.txt

La commande locate et les caractères communs aux ERb et ERe

Pour utiliser les ER avec locate, il faut dans tous les cas une option.
Les caractères communs aux ERb et ERe, peuvent être utilisés avec l'une ou l'autre de ces options :

Pour utiliser les ERb, il faut utiliser l'option :

locate

--regexp REGEXP
      Search for a basic regexp REGEXP.  No PATTERNs  are  allowed  if
      this  option  is used, but this option can be specified multiple
      times.

Pour utiliser ces mêmes caractères en tant que ERe il faut utiliser l'option :

locate

--regex
       Interpret all PATTERNs as extended regexps

Sans l'une ou l'autre de ces options, locate reconnaît le caractère * comme un métacaractère du shell.

⇒ Cela a une conséquence par rapport aux caractères ERb qui ne sont pas communs aux ERe.
Autrement dit, si on choisit d'utiliser les ERb, il faudra un antislash pour utiliser les caractères spécifiques aux ERb et ce sera inutile si on choisit les ERe.

Voir l'utilisation de locate avec les caractères spécifiques aux ERb.

Contrairement à find, il n'est pas nécessaire que la ER corresponde au chemin absolu d'un fichier.

Mais la quantité de réponses peut être très élevée, et si l'on a une idée du répertoire dans lequel se trouve le fichier recherché, il peut plus confortable de le préciser.
On peut aussi filtrer le retour avec grep.

Enfin, avec l'utilisation de locate, le caractère début (^) est inusité.

En effet, avec une commande qui recherche des noms de fichier, la seule possibilité serait ^/. Or locate permet justement de ne pas avoir à donner le chemin absolu du fichier recherché. L'utiliser ne ferait qu'allonger inutilement l'expression régulière !

Étoile et point

locate --regexp '/home.*[Tt]o.*'

Donne un retour de plusieurs pages.

locate --regexp '/home.*[Tt]o.*' | grep "/Dossier/"

/home/hypathie/ERetCMD/Dossier/Toto.txt
/home/hypathie/ERetCMD/Dossier/Toto1.txt
/home/hypathie/ERetCMD/Dossier/tito
/home/hypathie/ERetCMD/Dossier/toto
/home/hypathie/ERetCMD/Dossier/toto.

caractère fin de ligne $ :

locate --regexp '/home.*/Dossier/[Tt]o.*\.txt$'

/home/hypathie/ERetCMD/Dossier/Toto.txt
/home/hypathie/ERetCMD/Dossier/Toto1.txt

Le caractère début de mot \< :

locate --regexp '.*\<smolski.*'

/home/hypathie/ERetCMD/smolski-exo-sed.txt

La commande sed et les caractères communs aux ERb et ERe

Pour les caractères considérés ci-dessus, . ; *, ^, $, [liste de caractères], [^liste de caractères], \<, \>,
il en va de même pour la commande sed que pour la commande grep.
Je ne donnerai que quelques exemples.
Il est à noter que sans l'option -i, les exemples ne modifieront pas le fichier.
Comme grep pour les caractères vues jusqu'ici :

Les caractère début et fin de ligne :

Par exemple, supprimer la ligne vide :

sed '/^$/ d' liste1-nom

Le caractère étoile :

Par exemple, substituer “AAAAAA” par abc

sed '/A*/s/AAAAAA/COUCOU/' liste1-nom

1 2 Francine
2 3 Édith
3 4 Géraldine
123 COUCOU
tout le monde
partout
toutefois
4 5 Béatrice
5 6 Christelle
5 7 Dorothée
6 8 Amanda

Le caractère fin de mot :

Par exemple, tout supprimer sauf (!)⁵⁾ la ligne correspondant à un mot finissant par “fois”

sed '/fois\>/ !d' liste1-nom

toutefois

Attention au sens global de la ER donné par la commande

Si la signification des caractère est la même, l'action de la commande modifie “la phrase”, ou le sens global de la ER.
Comparer l'usage des [^ ] de grep avec ce qui suit :

echo "12 f 6 7" | sed 's/^[^12345678]/coucou/g'

12 f 6 7

Il ne se passe rien car avec sed la signification de la ER est : “substitue le caractère de début de la ligne qui ne commence pas par l'un des caractères '1234567'”.
sed ne cherche pas comme grep une chaîne ou un cataère qui “ne commence pas par l'un des caractères '1234567'”, et ne substituerait pas “f” de cette manière.

Ainsi :

echo " 12 f 6 7" | sed 's/[^1-7]/X/g'

X12XXX6X7

Le sens de la ER est “substitue tout ce qui n'est pas 1, 2, 3, 4, 5, 6, 7 par “X”
Y compris les espaces !

Il ne faut donc pas s'imaginer que sed utilise une version non posix des ER, telle que la littérature à son sujet l'alimente parfois.
Ce n'est que pour ce qui concerne les implantations GNU qui ne sont pas posix, que sed présente quelques bizarreries.
Rien d'obscure et pas d'obscurantisme, tout reste logique, à condition de savoir en changer… C'est là ce qui rend passionnant l'utilisation d'un méta-langage, la possibilité de la différence par delà l'identité des éléments, au moyen du contexte !

awk et les caractères communs aux ERb et ERe

La commande awk travail sur les colonnes, les lignes, les mots, et constitue un langage de programmation. Je ne rappellerai pas toutes les fonctions de awk mais présenterai seulement comment utiliser les ER pour une utilisation basique de cette commande.
L'usage le plus simple d'awk consiste à utiliser une ER pour sélectionner une chaîne.
Le contenu des champs sont enregistrés dans les variables $1, $2, $3, …, correspondant aux colonnes 1, 2, 3, …

Avec awk la ER est encadrée par des slash /ER/.

L'étoile

echo "123 AAAAAA" | awk '/A*/{print $2}'

AAAAAA

Notez qu'il s'agit bien du caractère * qui signifie “une ou plusieurs fois 'A', et non du métacaratère *.

Notez encore que cet exemple est un peu surfait. Il ne sert qu'à vérifier si la ER est juste, et à rappeler la syntaxe d'utilisation d'une ER avec awk. C'est que awk ne sert pas à vérifier l'exactitude d'une ER. Au contraire la ER sert de condition (correspondance de la chaîne AAAAAA avec A* ) pour effectuer une action (ici imprimer, c'est-à-dire afficher la colonne n°2).

Néanmoins, cet exemple permet d'insister encore une fois : il est important de bien comprendre que la signification globale d'une ER dépend du contexte créé par les commandes.

Comparaison de sed et d'awk

Modifions l'exemple ci-dessus, afin de comparer l'utilisation d'une ER dans le contexte de awk avec celui de sed.

Rappel :

echo " 12 f 6 7" | sed 's/[^1-7]/X/g'

X12XXX6X7

substitution par “X” de tout ce qui n'est pas 1, 2, 3, 4, 5, 6, 7

Même exemple avec sed :

echo "12 f 6 7" | awk '/[^12345678]/{print $2}'

Afficher le champ n°2 ($2) si la ER ( “tout ce qui n'est pas 1, 2, 3, 4, 5, 6, 7”) est vraie.

Ce qui rend difficile l'utilisation des ER n'est peut-être pas de savoir “traduire” une expression littérale par l'association de plusieurs caractères symboliques. C'est bien plutôt la “mouvance” de l'effet de cette “traduction”, effet qui n'est pas le même selon telle ou telle commande utilisée.

Chaque commande crée un contexte différents qui détermine l'usage des ER.
Si l'utilisation des ER est souvent déprécié, c'est pour une bonne part parce que leurs différents contextes ne sont jamais mis en confrontation.

Mais une fois ces contextes précisés, et une fois s'être exercé à passer de l'un à l'autre, l'utilisation des ER devient bien plus facile.

le caractère début de ligne (^)

Rappel du fichier “liste1-nom” dont la dernière ligne est vide :

cat liste1-nom

1 2 Francine
2 3 Édith
3 4 Géraldine
123 AAAAAA
tout le monde
partout
toutefois
4 5 Béatrice
5 6 Christelle
5 7 Dorothée
6 8 Amanda

awk '$1 ~ /^4/' liste1-nom

Affiche la ligne ou les lignes dont la colonne n°1 correspond à la ER (“qui commence par 4”).

4 5 Béatrice

L'action par défaut est print, s'il aucune action n'est mentionnée et que la condition est vraie.

Le caractère tilde ~ est un opérateur de correspondance entre une ER et une variable.
Il ne s'agit pas du tilde qui symbolise le répertoire personnel de l'utilisateur.
Et ce n'est pas un caractère qui fait partie des caractères des expressions rationnelles.
L'opérateur de correspondance appartient à awk, et fait partie des opérateurs de tests < ; > ; == …

caractère fin de ligne ($)

awk '$3 ~ /ce$/' liste1-nom

4 5 Béatrice

Caractère point et étoile

awk '$3 ~ /.d.*/' liste1-nom

Affiche la ou les lignes dont le troisième champ (colonne) comporte une chaîne correspondant à “un caractère (.), suivi d'un d, suivi d'un ou plusieurs caractères (.*).

2 3 Édith
3 4 Géraldine
tout le monde
6 8 Amanda

Les crochets

awk '$3 ~/t[h]/' liste1-nom

Affiche la ou les lignes dont la chaîne correspond à la ER “t” ou “th”

2 3 Édith
5 7 Dorothée

exclusion [^ ]

awk '$1 ~ /^[^12345678]/' liste1-nom

tout le monde
partout
toutefois

ou avec la non-correspondance !~ propre à awk :

awk '$1 !~ /^[12345678]/' liste1-nom

tout le monde
partout
toutefois

La seule différence entre $1 ~ /^[^12345678]/ et $1 !~ /^[12345678]/, c'est que la deuxième ER affichera une ligne vide, et non la première.

Début et fin de mot

awk '$1 ~ /fois\>/' liste1-nom

toutefois

La commande expr n'utilise que ERb

Préparation

Soit le fichier ”liste4-spec” :

cat liste4-spec

gdd:a:aa:aaa:aaaa:aaaaaa:aaaaaaaa
T5c Kc5 T5 c E2* abcd 7 9Abcd
7 1AAA.AAA.bcdef aBcd6a 123*
abc2356.99
73000|Savoie
123456
1234567
index-tel|04|Rhône-Alpe
-15 +36 5687 {15} exemple{36}
il y a un truc et un truc et encore un truc et une chose
choses et trucs ne font pas bon ménage
123.3456.abc
trucschosetruc
tructructrucs
chosechosechose

Syntaxe

expr chaîne-de-caractères : expression-rationnelle-basique

La commande expr utilise l'opérateur : pour mettre en correspondance une chaîne de caractères avec une ER.
Si le nombre de caractères de la chaîne correspond à l'ERb, alors expr affiche ce nombre à l'écran.
Si la correspondance décrite ci-dessus est vraie, le code de retour est 0 (zéro).
Si elle est fausse, expr retourne 0 (zéro) pour “zéro correspondance) et le code de retour est 1 (un).
L'expression rationnelle est comparée par rapport au début de la variable, le caractère ^ est toujours implicite.
Si une partie de l'expression rationnelle est mémorisée avec  la commande expr affiche dans le terminal la partie correspondante.

Exemples

crochet, étoile, fin de ligne :

var=123

expr "$var" : '[0-9]*$'

“3” ne doit pas être confondu avec un code de retour, c'est le nombre de caractères de la variable qui correspondent à ER.

echo $?

La correspondance est vraie : code de retour “0”.
La variable comporte bien 3 caractères 1, 2, et 3 et non le chiffre “123”; il s'agit d'une comparaison sur chaîne de caractères.

ER qui ne correspond pas à la chaîne de la variable :

var="les bonbons, c'est bon"

expr "$var" : 'bons\>'

zéro est le nombre de caractère correspondant

echo $?

Le chiffre “1” est le code de retour.

sous chaîne avec caractère fin de mot :

var="les bonbons, c'est bon"

expr "$var" : '\(.*bons\>\),'

les bonbons

Demander le code de retour est inutile, la ER est forcément juste, s'il y a affichage de la sous-chaîne correspondante. À moins d'en avoir besoin lors d'une utilisation de expr dans un script shell s'en servant pour un test.

L'éditeur de texte vi n'utilise aussi que les ERb

Préparation

cat liste4-vim

Kc5 T5 c E2* abcd 7 9Abcd
7 1AAA.AAA.bcdef aBcd6a 123*
abc2356.99
73000|Savoie
index-tel|04|Rhône-Alpe
-15 +36 5687 {15} exemple{36}
il y a un truc et un truc et encore un truc et une chose
chose et truc ne font pas bon ménage
123.3456.abc
trucchosetruc
tructructruc
chosechosechose

Modes utilisés dans ce qui suit :

Le mode normal: celui dans lequel vous êtes à l'ouverture du fichier. Il permet de taper des commandes.
- Par exemple, la commande :q! pour sortir sans enregistrer ;
- la commande :wq pour enregistrer et sortir

Le mode insertion: Ce mode permet d'insérer les caractères que vous saisissez à l'intérieur du document. Pour passer en mode insertion, il suffit d'appuyer sur la touche “i” ; touche “Échap” pour en sortir.

Pour tester ce qui suit si vous ne connaissez pas vi ou vim :
- Après installation de vim, créer un fichier, par exemple “liste4-vim” : vim liste4-vim
- Copier le contenu de “liste4-vim” ci-dessus ;
- Pour coller dans le fichier “liste4-vim” édité avec vim :
- touche <majuscule de droite> + touche <inser> (cela fait que l'on est en mode insertion)
- sortir du mode insertion : touche “Échap”
- enregistrer et sortir : :wq et touche <entrée>
Pour apprendre les rudiments de l'utilisation de vim (et donc de vi), après l'installation de vim :

vimtutor

→ Pour y ajouter l'utilisation des ER, suivre ce qui suit.

Éditer le fichier “liste4-vim” :
Pour éditer le fichier avec vi ou vim :

vi liste4-vim

vim liste4-vim

Syntaxe d'utilisation des ER

recherche en mode interactif tapez (/) :

/expression-rationnelle-basique

/chaîne ou ER - rechercher ce qui correspond à chaîne ou les chaînes correspondant à ER

n - rechercher l'occurrence suivant de la chaîne

N - rechercher l'occurrence précédente de chaîne

substitution d'une occurrence (depuis le mode interactif passer en mode commande (:) :

:[adresse[,adresse]]s/expression-rationnelle-basique/remplacement/[drapeau]

substitution sur tout le texte, ou une portion en mode commande (:) :

:adresse%s/chaine_a_remplacer/chaine_de_remplacement/

g - drapeau - remplacer toutes les occurrences de le ER (si cette option n'est pas utilisée, vi substituera que la prochaine occurrence du motif)

c - drapeau - confirmer le remplacement

i - drapeau - ignorer la casse (prend en compte toutes les occurrences de la chaîne en majuscules ou en minuscules)

Exemples de recherches

le caractère début de ligne ^

/^chose

On appuie sur la touche shift+: pour inscrire /, on inscrit sa ER, on valide avec la touche “entrée”. vi ou vim surligne toutes les occurrences de “chose” qui sont en début de ligne.

nohlsearch

Pour retirer la surbrillance de la recherche.

le caractère fin de ligne $

/chose$

On valide avec entrée, et nohlsearch pour effacer

Exemples de substitution

crochets :

:s/[Ss]/XXX/g

Substitue les caractères “S” ou “s” à la ligne du curseur et surligne toutes les occurrences potentiellement substituables.
nohlsearch pour retirer la surbrillance.
puis pour annuler la substitution “Échap”, puis appuyer sur la lettre “u” (“u” pour annuler un seul changement, “U” pour annuler plusieurs changement sur une ligne.

idem sur tout le texte :

:1,$s/[Ss]/XXX/g

“1,$” est l'adressage qui signifie de la première ligne à la fin.

sous-chaîne avec parenthèses et accolades :

/\([0-9]\{3\}.\)\{2\}

Vi ou vim surligne à la ligne 9 (comportant “123.3456.abc”) la sous-chaîne 123.3456..

Caractères spécifiques aux ERb et ERe

Je présenterai ici les commandes qui utilisent uniquement les ERb, c'est-à-dire, celles qui n'ont pas besoin d'une option pour utiliser les expressions rationnelles et qui n'utilisent que les expressions rationnelles basiques, et donc forcément les caractères spécifiques aux ERb.
Il s'agit de expr et vi.

Elles utilisent bien sûr tous les caractères communs aux ERb et ERe, leur utilisation avec ces caractères apparaîtra en à côté de l'utilisation des caractères spécifiques aux ERb qui permettent de décrire des motifs plus complexes.

Pour les commandes “à option” qui utilisent tous les caractères spécifiques aux ERb, mais qui peuvent aussi utiliser ces mêmes caractères⁶⁾ sans antislash avec les ERe, je présenterai rapidement leur utilisation des ERb dans le chapitre sur les caractères spécifiques aux ERe.

Caractères spécifiques aux ERb

Toutes les commandes utilisant les expressions rationnelles basiques utilisent les caractères énumérés ci-dessous.

La commande expr n'utilise que ceux-ci.

expressions	Modèles reconnus
`\{m\}`	m fois le caractère précédent
`\{m,\}`	au moins m fois le caractère précédent
`\{m,n\}`	entre m et n fois le caractère précédent
`$ERb$`	mémorisation d'une ERb
`\1, \2, ...`	Rappel de mémorisation

Les commandes grep (ou grep -G) ; find -regextype “posix-basic” ; locate –regexp ; sed; vi utilisent en plus ces caractères ci-dessous :


`\?`	zéro ou une fois l'élément précédent
`\+`	une ou plusieurs fois l'élément précédent
`\\|`	alternative

→ Le caractère \ donne une signification spéciale aux parenthèses et accolades, ?, +, | au lieu de les rendre littérales.
Mais il permet de rendre littéraux les autres caractères des ERb, par exemple \. permet de sélectionner un point.

Caractères spécifiques aux ERe

Les caractères spécifiques aux ERe sont utilisables avec les commandes :

grep -E ; (ou egrep) ; find -regextype “posix-extended” ; locate –regex ; sed -r et awk⁷⁾.

Bien évidemment tous les caractères communs aux ERb et ERe sont utilisables avec ces commandes et ces options.

expressions	Modèles reconnus
`?`	zéro ou une fois le caractère ou le regroupement précédent
`+`	une à n fois le caractère ou regroupement précédent
`{m}`	m fois le caractère précédent
`{m,}`	m fois le caractère précédent
`{m,n}`	entre m et n fois le caractère précédent
`( er1)`	regroupement
`er1\|er2\|er3`	alternative
`(er)+`	Une ou plus de une chaîne(s) consécutive(s) validée(s) “er”.
*`(er)`**	zéro ou plus de zéro chaîne(s) consécutive(s) validée(s) par “er”
`(er)?`	une chaîne bulle ou toute chaîne validée par “er”.
`[c1c2...]`	Tout caractère expressément listé entre les crochets.
`[^c1c2...]`	Tout caractère excepté ceux qui sont expressément listés entre les crochets.
`[c1-c2]`	Tout caractère appartenant à l’intervalle c1 c2, bornes comprises.
`er1\|er2`	Toute chaîne de caractères validée soit par er1 soit par er2.
`(er)(er)`	Toute chaîne validée par l’expression er, chaîne vide exclue.
`(er1)(er2)`	Toute chaîne de caractères de type AB, dans laquelle l’expression régulière er1 valide A et l’expression régulière er2 valide B. Avec awk uniquement

Les commandes expr et vi et les caractères spécifiques aux ERb

La commande expr n'utilise que ERb

Rappel :

Soit le fichier ”liste4-spec” :

cat liste4-spec

gdd:a:aa:aaa:aaaa:aaaaaa:aaaaaaaa
T5c Kc5 T5 c E2* abcd 7 9Abcd
7 1AAA.AAA.bcdef aBcd6a 123*
abc2356.99
73000|Savoie
123456
1234567
index-tel|04|Rhône-Alpe
-15 +36 5687 {15} exemple{36}
il y a un truc et un truc et encore un truc et une chose
choses et trucs ne font pas bon ménage
123.3456.abc
trucschosetruc
tructructrucs
chosechosechose

Syntaxe :

expr chaîne-de-caractères : expression-rationnelle-basique

expr utilise tous les caractères communs aux ERb et ERe
mais elle n'utilise que les caractères spécifiques aux ERb ci-dessous :

`\{m\}`	m fois le caractère précédent
`\{m,\}`	au moins m fois le caractère précédent
`\{m,n\}`	entre m et n fois le caractère précédent
`$ERb$`	mémorisation d'une ERb
`\1, \2, ...`	Rappel de mémorisation

Exemple

sous-chaîne et quantificateur accolades :

var=123.456.

expr "$var" : '\([0-9]\{3\}.\)\{2\}'

456.

expr affiche la sous-chaîne “456.”

Le caractère * est gourmand :

var="hypathie|00 rue Debian-facile|01011|ici"

expr "$var" : '\(.*\)|'

hypathie|00 rue Debian-facile|01011

L'éditeur de texte vi et les caractères spécifiques aux ERb

vi (vim) utilise tous les caractères communs aux ERb et ERe, tous les caractères spécifiques aux ERb, y compris ceux ci-dessous (comme “les commandes à option” permettant de choisir le type ER):

`\?`	zéro ou une fois l'élément précédent
`\+`	une ou plusieurs fois l'élément précédent
`\\|`	alternative

Reprise du fichier “liste4-vim” :

vi liste4-vim

vim liste4-vim

utilisation de \|

/c\|t

→Une image vaut mieux qu'une description :

Utilisation de \?

/\.[0-9]\?

→ Là aussi :

Utilisation de \+

/[A-Z]\+

→ Là aussi :

La substitution sous vi et vim est très proche de sed. Je ne développerai pas d'avantage.
En plus des ERb, vi et vim utilisent quelques raccourcis.

\d - chiffres de 0 à 9
\n - nouvelle ligne

Pour plus de détail sur vi et vim et l'utilisation des REGEX, voir :

Caractères spécifiques aux ERb ou caractères spécifiques aux ERe

grep, sed, find, locate

Préparation

Soit le fichier ”liste4-spec”:

gdd:a:aa:aaa:aaaa:aaaaaa:aaaaaaaa
T5c Kc5 T5 c E2* abcd 7 9Abcd
7 1AAA.AAA.bcdef aBcd6a 123*
abc2356.99
73000|Savoie
123456
1234567
index-tel|04|Rhône-Alpe
-15 +36 5687 {15} exemple{36}
il y a un truc et un truc et encore un truc et une chose
choses et trucs ne font pas bon ménage
123.3456.abc
trucschosetruc
tructructrucs
chosechosechose

grep -E (egrep) et les caractères spécifiques

Avec l'option -E grep utilisent les expressions rationnelles étendues.
La commande egrep et un équivalent.

Pour les caractères : [ ] { } ? + |

il possible avec grep d'utiliser aussi les caractères spécifiques aux ERb.
Par exemple :

grep "1A\{3\}\.A\{3\}\..*" liste4-spec

grep -G "1A\{3\}\.A\{3\}\..*" liste4-spec

7 1AAA.AAA.bcdef aBcd6a 123*

→ mais ne pas oublier l'antislash devant les accolades !

Parenthèses

grep -E "( [0-9]{4})" liste4-spec

-15 +36 5687 {15} exemple{36}

le caractère précédent de "n" à "m" fois :

grep -E "[0-9]{1,3}" liste4-spec

T5c Kc5 T5 c E2* abcd 7 9Abcd
7 1AAA.AAA.bcdef aBcd6a 123*
abc2356.99
73000|Savoie
123456
1234567
index-tel|04|Rhône-Alpe
-15 +36 5687 {15} exemple{36}
123.3456.abc

Les accolades (le caractère précédent un nombre exact de fois) :

grep -E "1A{3}\.A{3}\..*" liste4-spec

7 1AAA.AAA.bcdef aBcd6a 123*

Le caractère précédent au moins "n" fois :

grep -E "[0-9]{4,}" liste4-spec

abc2356.99
73000|Savoie
-15 +36 5687 {15} exemple{36}
123.3456.abc

Le caractère + et parenthèses

grep -E "(1A{3}\.)+.*" liste4-spec

7 1AAA.AAA.bcdef aBcd6a 123*

Le caractère ?

grep -E "trucs?" liste4-spec

il y a un truc et un truc et encore un truc et une chose
choses et trucs ne font pas bon ménage
trucschosetruc
tructructrucs

On cherche les lignes qui comporte “truc” au singulier ou au pluriel.

Le caractère d'alternative |

grep -E "(truc|chose)" liste4-spec

 
il y a un truc et un truc et encore un truc et une chose
choses et trucs ne font pas bon ménage
trucschosetruc
tructructrucs
chosechosechose

sed et les caractères spécifiques aux ERe

Rappel

Par défaut sed utilise les ERb.
Pour s'éviter de mettre un antislash devant parenthèse, accolade, ?, +, |,
il faut utiliser l'option -r.

Sans option et avec l'antislash le signification de ces caractères sont les mêmes que lors de leur utilisation avec l'option -r.

Exemples

Substituer “Hello” par “OK” :

echo "coucou Hello Yep" | sed -r 's/[A-Z]{1}[a-z]{4}/OK/g'

coucou OK Yep

Substituer “a” et “aa” par “OK” :

echo "a aa aaa aaaa aaaaaa aaaaaaaa" | sed -re 's/(a{1} )/OK/'\
 -e 's/(a{2} )/OK/'

OKOKaaa aaaa aaaaaa aaaaaaaa

L'antislash de la commande précédente permet de couper les longues commandes.
Ne pas confondre avec l'antislash utiliser pour les ERb et les caractères spécifiques, parenthèses, accolades, etc.

find et les caractères spécifiques

Rappel

Pour utiliser les ERe, il faut utiliser l'option -regextype “posix-extended” .

Pour les caractères [ ] { } ? + , on peut là aussi choisir les ERb en mettant un antislash devant.
Pour ce faire, il faut alors utiliser l'option -regextype “posix-basic” .

Préparation

Dans le répertoire de l'utilisateur soit le répertoire “ERetCMD/” contenant :

Dossier		      img-perso-2.jpg  liste3-erb-ere	    sort1.txt
essai.grep2~	      liste	       liste4-spec	    sort2.txt
image linux - 01.jpg  liste1	       liste4-vim	    sort3.txt
image linux - 02.jpg  liste1-nom       liste-class	    vim2.png
image linux - 03.jpg  liste2	       server-0.xkb	    vim.png
img-perso-1.jpg       liste2-nom       smolski-exo-sed.txt  xxx-sort.txt

Exemples

accolades (depuis le répertoire parent “ERetCMD/” des fichiers recherchés :

find -regextype "posix-basic" -regex ".*/[a-z]\{,3\}-.*\.jpg$"

./img-perso-2.jpg
./img-perso-1.jpg

find -regextype "posix-extended" -regex ".*[a-z]{,3}-.*\.jpg$"

./img-perso-2.jpg
./img-perso-1.jpg

caractère ? :

find -regextype "posix-basic" -regex ".*/liste.\?"

./ERetCMD/liste1
./ERetCMD/liste
./ERetCMD/liste2

le caractère + (depuis le répertoire parent “ERetCMD/” des fichiers) :

find -regextype "posix-extended" -regex ".*liste.+"

./liste2-nom
./liste1-nom
./liste3-erb-ere
./liste4-vim
./liste1
./liste4-spec
./liste2
./liste-class

locate et les caractères spécifiques

Rappel

Pour utiliser les ERe, il faut utiliser l'option –regex.
De même que précédemment, on peut choisir l'option –regexp pour utiliser les caractères spécifiques aux ERb qui nécessitent \.

Soit encore le répertoire “ERetCMD/” contenant les mêmes fichiers (voir find).

Mise à jour de la base de donnée, si besoin :

updatedb

Exemples

parenthèses et accolades (depuis n'importe où dans l'arborescence du système de fichiers) :

locate --regexp '\([a-z]\{1,\} \)\{2\}.*\.jpg$'

/home/Téléchargements/Les utilitaires awk, nawk et gawk - Tutoriel_fichiers/logo.jpg
/home/hypathie/ERetCMD/image linux - 01.jpg
/home/hypathie/ERetCMD/image linux - 02.jpg
/home/hypathie/ERetCMD/image linux - 03.jpg

locate --regex '([a-z]{1,} ){2}.*\.jpg$'

/home/Téléchargements/Les utilitaires awk, nawk et gawk - Tutoriel_fichiers/logo.jpg
/home/hypathie/ERetCMD/image linux - 01.jpg
/home/hypathie/ERetCMD/image linux - 02.jpg
/home/hypathie/ERetCMD/image linux - 03.jpg

caractère ? :

locate --regex '/liste.?'

/home/hypathie/Documents/PYTHON/python2/chap06/liste_et_branch.py
/home/hypathie/Documents/PYTHON/python3/chap06/liste_et_branch.py
/home/hypathie/ERetCMD/liste
/home/hypathie/ERetCMD/liste-class
/home/hypathie/ERetCMD/liste1
/home/hypathie/ERetCMD/liste1-nom
/home/hypathie/ERetCMD/liste2
/home/hypathie/ERetCMD/liste2-nom
/home/hypathie/ERetCMD/liste3-erb-ere
/home/hypathie/ERetCMD/liste4-spec
/home/hypathie/ERetCMD/liste4-vim
/usr/share/man/man2/listen.2.gz

Le fichier “liste” (sans extension) apparaît.

caractère + :

locate --regex '/liste.+'

/home/hypathie/Documents/PYTHON/python2/chap06/liste_et_branch.py
/home/hypathie/Documents/PYTHON/python3/chap06/liste_et_branch.py
/home/hypathie/ERetCMD/liste-class
/home/hypathie/ERetCMD/liste1
/home/hypathie/ERetCMD/liste1-nom
/home/hypathie/ERetCMD/liste2
/home/hypathie/ERetCMD/liste2-nom
/home/hypathie/ERetCMD/liste3-erb-ere
/home/hypathie/ERetCMD/liste4-spec
/home/hypathie/ERetCMD/liste4-vim
/usr/share/man/man2/listen.2.gz

Le fichier “liste” (sans extension) n'apparaît pas.

Les classes

symboles et significations


`[[:alnum:]]`	Alpha-numerique [a-z A-Z 0-9]
`[[:alpha:]]`	Alphabetic [a-z A-Z]
`[[:blank:]]`	Espaces ou tabulations
`[[:cntrl:]]`	Caractères de contrôle
`[[:digit:]]`	Nombres [0-9]
`[[:graph:]]`	Tous les caractères visibles (à l'exclusion des espaces)
`[[:lower:]]`	Lettres minuscules [a-z]
`[[:print:]]`	Caractères imprimables (tous caractères sauf ceux de contrôle)
`[[:punct:]]`	Les caractères de ponctuation
`[[:space:]]`	Les espaces
`[[:upper:]]`	Les lettres majuscules [A-Z]
`[[:xdigit:]]`	Chiffres hexadécimaux [0-9 a-f A-F]

grep, grep -E et les classes

La commande grep utilise les classes soit comme ERb et soit comme ERe, c'est-à-dire sans l'option -E ou avec l'option -E

Préparation

soit le fichier “

cat liste-class

 
gdd:a:aa:aaa:aaaa:aaaaaa:aaaaaaaa
T5c Kc5 T5 c E2* abcd 7 9Abcd
7 1AAA.AAA.bcdef aBcd6a 123*
abc2356.99
73000|Savoie
123456
1234567
index-tel|04|Rhône-Alpe
-15 +36 5687 {15} exemple{36}
123.3456.abc

[[:class:]] + quantificateur { }

grep "[[:digit:]]\{4\}" liste-class

 
abc2356.99
73000|Savoie
123456
1234567
-15 +36 5687 {15} exemple{36}
123.3456.abc

sélection de “3456” ; “5687” ; de “2356” ; et des lignes avec plus de 4 chiffres consécutif.

grep "[[:digit:]]\{6\}" liste-class

 
123456
1234567

Sélectionne les lignes comportant 6 chiffres consécutifs et de 7 chiffres.

grep sélectionne les lignes lorsqu'il trouve exactement 4 chiffres sans se préoccuper de ce qu'il y a après, même s'il y a d'autres chiffres. En réalité, c'est à nous de préciser avec la ER qu'il faut tenir compte de ce qu'il y a après cet “exactement 6 chiffres”.
Les classes servent à décrire des sous-chaînes ou des lignes entières plus facilement et ne relèvent pas des expressions rationnelles dites “atomiques”.

Il en va de même avec les ERe :

grep -E "[[:digit:]]{6}" liste-class

123456
1234567

classes et sous-chaîne

En tant que ERb :

grep "\([[:digit:]]\{4\}\)[\. ]" liste-class

 
abc2356.99
-15 +36 5687 {15} exemple{36}
123.3456.abc

En tant que ERe :

grep -E "([[:digit:]]{4})[\. ]" liste-class

abc2356.99
-15 +36 5687 {15} exemple{36}
123.3456.abc

Dans l'exemple ci-dessus, avec les ERe, on pourrait remplacer [\. ] par (\.| )

locate et les classes, ERb ou ERe

Visualisation du répertoire ~/ERetCMD/ :

ls

Dossier		      img-perso-1.jpg  liste3-erb-ere  smolski-exo-sed.txt
essai.grep2~	      img-perso-2.jpg  liste4-spec     sort1.txt
image linux - 01.jpg  liste1-nom       liste4-spec~    sort2.txt
image linux - 02.jpg  liste1-nom~      liste4-vim      sort3.txt
image linux - 03.jpg  liste2-nom       server-0.xkb    xxx-sort.txt

sous-chaîne avec classes dans une ERb

Option –regexp et on met un antislash de toutes les parenthèses et les accolades.

locate --regexp '.*\([[:lower:]]\{4,5\} \)\{2\}.*\.jpg$'

/home/hypathie/ERetCMD/image linux - 01.jpg
/home/hypathie/ERetCMD/image linux - 02.jpg
/home/hypathie/ERetCMD/image linux - 03.jpg

sous-chaîne avec classes dans une ERe

Idem mais avec option –regex et on enlève les \ inutiles avec les ERe

locate --regex '.*([[:lower:]]{4,5} ){2}.*\.jpg$'

/home/hypathie/ERetCMD/image linux - 01.jpg
/home/hypathie/ERetCMD/image linux - 02.jpg
/home/hypathie/ERetCMD/image linux - 03.jpg

find et les classes, ERb ou ERe

Les classes et ERb

option : -regextype “posix-basic”

find -regextype "posix-basic" -regex ".*/[[:lower:]]\{,3\}-.*\.jpg$"

./img-perso-2.jpg
./img-perso-1.jpg

Les classes et ERe

option : -regextype “posix-extended” et on enlève \ devant accolades ou parenthèses

find -regextype "posix-extended" -regex ".*/[[:lower:]]{,3}-.*\.jpg$"

./img-perso-2.jpg
./img-perso-1.jpg

Pour sed les classes en tant que ERe

Rappel :
sed utilise les ERb sans option et les ERe avec l'option -r, mais pour utiliser les classes, il faut utiliser l'option -r.

Exemple 1 :

echo "123ab efab ef123" | sed -r 's/(ab[[:blank:]]ef){2}/OK/'

123OK123

Exemple 2 :

echo "a aa aaa " | sed -r 's/([[:alpha:]])/1/g'

1 11 111

Il ne s'agit que de donner le détail des commandes quant à l'utilisation des ER.
Remarquons au passage la différence avec et sans le flags g qui applique “partout”.
Et encore une fois l'effet d'une ER dépend de ce que fait la commande

Exemple 3 :

echo "a aa aaa " | sed -r 's/(a{1}[[:alpha:]])/2/g'

a 2 2a

Pour “protéger” le premier caractère “a”, on substitue en “remettant” un “a” !

sed permet d'utiliser la mémorisation \n avec les classes

Exemple 1 : inversion de champs

echo "abc 123" | sed -r 's/^([[:alpha:]]*) ([[:digit:]]*)/\2 \1/'

123 abc

Exemple : jusqu'à sous-chaîne n :

echo "abc 123 hij" | sed -r 's/([[:alpha:]]*) ([[:digit:]]*) ([[:alpha:]]*)/x x \2/'

x x 123

la commande expr utilise les classes en tant ERb

Exemple 1 :

var=123

expr "$var" : '[[:digit:]]*$'

Exemple 2 : extraire la première sous-chaîne :

var="hypathie|00 rue Debian-facile|01011|ici"

expr "$var" : '^[[:alpha:]]*|\([[:digit:]]*\).*\([[:digit:]]*\)$'

vi (vim) utilise les classes en tant que ERb

Préparation

vim liste4-vim

Kc5 T5 c E2* abcd 7 9Abcd
7 1AAA.AAA.bcdef aBcd6a 123*
abc2356.99
73000|Savoie
index-tel|04|Rhône-Alpe
-15 +36 5687 {15} exemple{36}
il y a un truc et un truc et encore un truc et une chose
chose et truc ne font pas bon ménage
123.3456.abc
trucchosetruc
tructructruc
chosechosechose

Exemples

Recherche :

/[[:alnum:]]\{7\}{[[:digit:]]\{2\}}

→ sélectionne entièrement la chaîne exemple{36}

Substitution [[:graph:]]:

:6,10s/[[:graph:]]/x/g

Le caractère “ô” n'est pas concerné du fait de la touche morte.

Substitution [[:print:]] :

:6,10s/[[:print:]]/x/g

awk utilise les ERe et les classes sans option

cat liste2-nom

 
Constance 20-03-1998
Rebecca 09-03-1999
Natanaël 01-08-2000
Alexis 21-01-2002
Hélène-Fleur 06-03-2005
Samuel 27-08-2008

Exemple 1, sélection de ligne avec ER comme condition :

awk '/S[[:lower:]]*/' liste2-nom

 
Samuel 27-08-2008

Exemple 2, correspondance entre variable (champ n°2) et une ER :

awk '$2 ~ /([[:digit:]]{2}-){2}2005$/' liste2-nom

Hélène-Fleur 06-03-2005

Raccourcis et commandes

Les raccourcis ne sont pas posix

sed :

Séquences	Séquences
`\f`	Produit ou correspond à un saut
`\n`	Produit ou correspond à un retour à la ligne
`\t`	Produit ou correspond à un onglet horizontal
`\v`	Produit ou correspond à une tabulation verticale
`\w`	Synonyme de `[[:alnum:]]` → correspond à un mot.
`\W`	Synonyme de `[^[:alnum]]` → ce qui autre qu'un mot.
`\b`	Correspond à une chaîne vide (blanc) à l'extrémité d'un mot

awk :

Séquences	Séquences
`\b`	backspace (supprime le dernier caractère d'une chaîne)
`\f`	formfeed (nouvelle page)
`\r`	carriage return (retour à la ligne)
`\t`	tabulation (crée une tabulation de dix espaces)
`\c`	tout caractère pris sous sa forme littérale excepté `\`

¹⁾

c'est-à-dire gawk
whereis awk
awk: /usr/bin/awk
ls -l /usr/bin/awk
lrwxrwxrwx 1 root root 21 juin 8 18:43 /usr/bin/awk → /etc/alternatives/awk
ls -l /etc/alternatives/awk
lrwxrwxrwx 1 root root 13 juil. 13 18:41 /etc/alternatives/awk → /usr/bin/gawk

²⁾

echo “Toto Tito toto toti tito loto” | echo [Tt][io]t[io]

³⁾

le point étant un caractère des ER, il faut l'antislash pour qu'il soit lu comme un point littéral

⁴⁾

de même qu'on prévient qu'on cherche un motif en respectant la casse avec -name

⁵⁾

relève du vocabulaire de sed, et n'est pas un caractère appartenant aux ER

⁶⁾

parenthèses, accolades, +, ? et |

⁷⁾

alias gawk