L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT →

Ceci est une ancienne révision du document !

Table des matières

Correspondance de motifs avec les globs étendus
Correspondance de motifs avec les expressions rationnelles
INDEX
- 1) rappel des principaux caractères des expressions rationnelles
- 2) ASCII
  - tuto précédent :

Bash : globs étendus et regex

Objet : suite de la série de wiki visant à maîtriser bash via les différents caractère spéciaux.
Niveau requis : avise
Débutant, à savoir : Utiliser GNU/Linux en ligne de commande, tout commence là !.
Suivi : a-placer
- Création par Hypathie 10/04/2014
- Testé par <Hypathie> le <Avril 2014>
Commentaires sur le forum : Lien vers le forum concernant ce tuto ¹⁾

Correspondance de motifs avec les globs étendus

Récapitulatif

Bash propose deux différents types de correspondances (pattern matching), en fonction de deux rôles :

la sélection des noms de fichiers dans un répertoire (on recherche par exemple différents noms de fichiers) ;
déterminer si une chaîne est conforme à un format désiré.

Il est possible aussi d'effectuer des substitutions de caractères, dans ce cas l'expression régulières permet d'aller changer le contenu d'un fichier.

Le premier type de correspondance se fait avec les globs ou patterns simples ; on effectue des recherches en ligne de commandes.
RAPPEL : les-metacaracteres
Le deuxième type de correspondance se fait (à partir de bash 2.01) avec les globs ou patterns longs (extended patterns), dans les tests de correspondances simples, en ligne de commandes ou dans des scripts.

Le troisième type de correspondance se fait dans les scripts de test, au moyen des commandes internes au shell. Il s'agit bien avec la version de Bash 3.0 de modèles d'expressions régulières. Mais attention, il ne s'agit plus alors de recherches de noms de fichiers ou de mots, ni de substitutions de caractères dans un texte. Il s'agit de “traiter” la chaîne constituant la valeur d'une variable. Pour ce qui concerne, la substitution de caractères d'un fichier (exécutable ou non), il s'agit de l'emploi de regex avec la commande commandes externes (grep, sed, awk par exemple). Nous en montreront le détail dans une prochaine page.

À voir :
- grep
- sed

Nous allons abordé dans cette page les deux points qui ne l'ont pas encore été : les globs étendus et les expressions régulières de type “bashistes” dans les scripts de tests.

Les globs étendus.

On trouve dans man bash, à la fin de la page “Développement des noms de fichiers”, “Motifs génériques”, le tableau suivant :

Regroupement	signification
?(liste-motif)	zéro ou une occurrence des motifs indiqués
*(liste-motif)	zéro ou plusieurs occurrence des motifs indiqués
+(liste-motif)	une ou plusieurs occurrence des motifs indiqués
@(liste-motif)	une occurrence exactement des motifs indiqués
!(liste-motif)	tout sauf les motifs indiqués les motifs indiqués

Comment se servir des caractères de ce tableau ?
Avec la commande interne de bash “shopt -s extglob”, bash prend en charge les motifs étendus (extended globs).
On peut alors définir plusieurs motifs, séparés par le caractère | et regroupés dans des parenthèses.
Le premier caractère placé avant les parenthèses (@, !, +, *, ?), fixe le type de correspondances avec les motifs.
Voir : http://www.linuxjournal.com/content/bash-extended-globbing
Notons l'option shopt -s nocasematch (bash version 3.1) permet de retirer la sensibilité à la case.

Les globs étendus dans le terminal

Par exemple, prenons un fichier de type répertoire nommé “Test” contenant les fichiers : image.bmp image.jpg nom.txt

shopt -s extglob

Valider puis dans le même terminal :

ls ~/Test/!(*jpg|*bmp)
#retour: /home/hypathie/Test/nom.txt

Ou encore avec le même exemple :

 cd ~/Test/
 ~/Test$ ls 
 
#retour: image.bmp  image.jpg  nom.txt
 
~/Test$ echo !(*jpg|*bmp)
 
#retour: nom.txt

Les globs étendus dans les scripts

Contexte :

Tester une chaîne par rapport à un motif (représentatif) et non par rapport à une constante littérale.
Par exemple :

#!/bin/bash
shopt -s extglob
nom=image.jpg
if [ "$nom" == *.jpeg ]         # correspondance vue précédemment
then
  echo "bonne correspondance"
  else 
  echo "mauvaise correspondance"
fi
# => mauvaise correspondance
nom=image.jpg
if [[ "$nom" = *.@(jpg|jpeg) ]]  # (ligne 12) 
                                 # emploi de globs (ou motifs) étendus : @ voir tableau ci-dessus
then
  echo "bonne correspondance"
  else 
  echo "mauvaise correspondance"
fi
# => bonne correspondance

Quelques remarques sur la ligne 12.

Contrairement à la correspondance simple rappelée au-dessus les doubles crochets sont obligatoires. C'est eux qui enclenchent le mécanisme de comparaison. On peut mettre un double égal, pour plus de clarté.
Le “méta-caractère” ou glob simple * signifie “un nombre quelconque de caractères” et le ? signifie “un seul caractère”, comme pour les globs simples.
CES SIGNIFICATIONS SONT CONSERVÉES lors de l'emploi des globs étendus, et leurs significations et conservée mais s'applique à une syntaxe différentes dans les expressions régulières.
Ne surtout pas mettre de “ ” autour de * : le shell chercherait alors les chaînes dont le premier caractère est une *, ni dans les cas simples, ni lorsqu'on utilise les motifs étendus.

Correspondance de motifs avec les expressions rationnelles

L'opérateur de correspondance =~ d'une expression rationnelle dans une expression de tests [[ ]]

Certaines expressions régulières peuvent être utilisées avec bash, mais elles ne peuvent pas être utilisée comme modèle de comparaison avec des noms de fichier pour effectuer des recherches en ligne de commandes. Elles matchent des variables et s'utilisent dans le cadres des scripts.

Les expressions régulières reconnues par Bash sont nommées ERE (“expression régulière étendues).
Depuis Bash 3.0, on peut pour se faire utiliser l'opérateur =~ avec un modèle regex, “mot-clé”.

[[ mot-clé]]  # modèle regex

Cet opérateur =~ permet alors de vérifier la correspondre entre une chaîne (valeur d'une variable à gauche) et le modèle regex à droite.
Ou encore de vérifier la correspondance entre une variable constituée d'une chaîne de caractères littérales, et une variable constituée d'une regex.
Voici quelques liens qui présentent la syntaxe et les caractères utilisables avec Bash sans les commandes grep, sed, awk.

Lorsque la chaîne correspond au motif, le code retour du test renvoie 0 pour vrai, sinon, il renvoie 1 pour faux.
Si la syntaxe du pattern n'est pas valide le code de retour est 2.

Lorsqu'une chaîne correspond, chacune des parties du motif sont disponibles dans la variable $BASH_REMATCH.

Liste des caractères utilisés dans les expressions régulières étendues

Voici les caractères utilisables :

“signes” regex ERE basique	signification (comparez avec le tableau de l'index)
.	Correspond à tout caractère unique. Dans expressions POSIX entre crochets, le caractère point correspond à un point littéral
[ ]	Correspond à un seul caractère qui est contenue dans les parenthèses. On peut mélanger [abcx-z] correspond à “a”, “b”, “c”, “x”, “y” ou “z”, de même que [a-cx-z]. Le caractère - est traité comme un caractère littéral si c'est le dernier ou le premier.
[^ ]	Correspond à un seul caractère qui n'est pas contenu dans les parenthèses. Par exemple, [^ abc] correspond à tout caractère autre que “a”, “b” ou “c”.
^	Correspond à la position de départ dans la chaîne.
$	Correspond à la position de fin de la chaîne ou la position juste avant un saut de ligne de chaîne interminable.
( )	Définit une sous-expression marquée. La chaîne correspondante entre parenthèses peut être rappelé plus tard (voir l'entrée suivante, \ n). Une sous-expression marquée est aussi appelé un groupe de blocs ou de capturer. Mode BRE nécessite \ (\).
\n	Correspond au nombre n de sous-chaîne, où n est un chiffre de 1 à 9. Écriture équivalente à {n}
*	Correspond à zéro ou plusieurs fois l'élément précédent. Par exemple, ab * c correspond à “ac”, “abc”, “abbbc», etc. Ou encore, [xyz] * correspond à ” ”, “x”, “y”, “z”, “zx”, “zyx”, “xyzzy ”, et ainsi de suite. (ab) * correspond à “”, “b”, “abab”, “ababab”, et ainsi de suite.
{m,n}	Correspond au moins à m fois mais pas plus de n fois l'élément précédent. Par exemple, a{3,5} correspond uniquement “aaa”, ou “aaaa”, ou “aaaaa”.
{ }	“exactement trois fois” par exemple a{3} correspond aaa seulement. (équivalent de aaa d'expression)
{n,}	“jusqu'à trois fois”. «trois fois ou plus». Par exemple, a{3,} correspond aaa ou aaaa, etc. (équivalent de a* )
{,n}	a{,3} “jusqu'à trois fois”. Correspond à la chaîne vide ou a ou aa ou aaa (équivalent de \| a \| aa \| aaa .
POSIX extended	Bash avec correctif, sinon il faut \ devant parenthèse et crochet. et \{ \}
autres caractères	signification
?	Correspond zéro ou une fois à l'élément précédent. Par exemple, ab? c correspond seulement “ac” ou “abc”.
+	Correspond une ou plusieurs fois à l'élément précédent. Par exemple, ab + c correspond à “abc”, “abbc”, “abbbc”, et ainsi de suite, mais pas “ac”.
\|	Correspond à l'expression d'avant OU l'expression d'après l'opérateur. Par exemple, abc\|def correspond à “abc” ou “def”.
Et tous les caractères de class posix	voir leur signification ici http://wiki.debian-facile.org/doc:programmation:shell:regexp#les-ensembles-de-caracteres-possibles
[:alnum:] [:alpha:] [:blank:] [:cntrl:] [:digit:] [:graph:] [:lower:] [:print:] [:punct:] [:space:] [:upper:] [:xdigit:]

Apprenons à construire une expression régulière "bashiste"

#!/bin/bash
for nombre in "1234567" "123478985" "123498761" "12396590"
do 
  if [[ $nombre =~ ^[0-9]{9}$ ]]  # 9 nombres ({ }) compris entre 0 et 9 ([0-9])
  then
      echo "$nombre comporte 9 nombres"
  else
      echo "$nombre ne correspond pas à 9 nombres"
  fi
done

Retour

1234567 ne correspond pas à 9 nombres
123478985 comporte 9 nombres
123498761 comporte 9 nombres
12396590 ne correspond pas à 9 nombres

Ou encore :

#!/bin/bash
#REGEX="^[[:upper:]]{1}[[:lower:]]{4}$"
REGEX="^[A-Z]{1}[a-z]{4}$"
var=Hello
if [[ $var =~ $REGEX ]]
then
echo "match"
else
echo "pas de match"
fi
 
# retour : match

Compliquons un peu en utilisant plusieurs autres caractères du tableau ci-dessus :

#!/bin/bash
regex="^([[:alpha:][:blank:]]*)- ([[:digit:]]*) - ([[:alpha:]]?)(.*)jpg$"
# ou regex="^([[:alpha:][:blank:]]*)- ([[:digit:]]*) - ([[:alpha:]]?)(.*)[a-z]{3}$"
#ou encore regex="^([[:alpha:][:blank:]]*)- ([[:digit:]]*) - ([[:alpha:]]?)(.*)[a-z]\3$"
var="image linux - 01 - pingouin.jpg"
 
if [[ $var =~ $regex ]]
then
echo "Le nom de l'image correspond à l'expression rationnelle."
else
echo "mauvaise regex"
fi
 
# retour : Le nom de l'image correspond à l'expression rationnelle.

explication

début de l'expression

entre parenthèses, première sous-expression, avec une paire de crochets contenant deux autres paires de crochets apha et blank, avec * pour signifier que le groupe (alpha, blank) doivent apparaître 0 ou plusieurs fois ; suivi d'un espace.

([[:alpha:][:blank:]]*)

un tiret avec un espace après comme dans l'expression littérale.

une sous expression faite d'un groupe composé d'un nombre quelconque d'alphanumérique, un espace, un tiret, une autre sous-expression qui apparaît 0 ou 1 fois (?).

([[:digit:]]*) - ([[:alpha:]]?)

La sous-expression (.*) signifie n'importe quel nombre (*) de tout caractères (.), puis littéralement jpg, puis $ qui signifie fin de l'expression ($).

Et voilà comment avec le shell bash, on peut dresser une expression rationnelle fonctionnant dans les tests !

DONC

LES EXPRESSIONS RÉGULIÈRES UTILISÉES AVEC LE SHELL BASH NÉCESSITENT L'OPÉRATEUR =~
ON Y RETROUVE CEUX DES CARACTÈRES GÉNERIQUES (globs) BASIQUES [ * [ ] ? ] (avec sens voisin mais étendus par une syntaxe particulière).
ON Y RETROUVENT CEUX DES CARACTÈTRES GÉNÉRIQUES ÉTENDUS [ | @ ! + ^] (là aussi avec une nouvelle syntaxe).
LES NOUVEAUX CARACTÈRES SONT [ , dans { } ( ) \n ainsi que l'enchâssement de crochets simples.
ELLES NE S'UTILISENT PAS AVEC LA SYNTAXE DE CORRESPONDANCE OU DE SUBSTITUTION DE TYPE :

 
$var/.../...
ou
$var//.../...

CE SONT LES ER D'AUTRES PROGRAMMES QUI RECOURENT À UNE SYNTAXE RESSEMBLANTE (voir index correspondance et substitution).
BEAUCOUP DE CES MÉTA-CARATÈRES SONT IDENTIQUES À CEUX DES ER D'AUTRES PROGRAMMES (comparez avec l'index).

4) un petit script pour s'exercer au ER

Voici un petit script “exp.reg1” qui regroupe les notions étudiées jusqu'à présent.
Il a pour but de s'exercer aux expressions régulières.

#!/bin/bash
#Les "echo" les plus à droite sont là pour expliquer lors du retour ce qui s'y passe dans ce script.
 
VAR="$1"
     echo "La valeur de VAR est: $VAR."
     echo "Il y a "$#" paramètres."
     echo "Le paramètre n°1 est "$1" (la 'ER')."
     echo "Le paramètre n°2 est "$2" (deuxième argument, chaine1 à matcher)."
     echo "Le paramètre n°2 est "$3" (le troisième argument, chaine2 à matcher."
     echo " "
shift
     echo "Avec 'shift', on se décale d'un paramètre." 
     echo "Après 'shift', il reste donc: "$#" paramètre(s)." 
     echo "Et ce(s) paramètre(s) sont: "$1", "$2"." 
     echo "("$1": ancien deuxième paramètre devenu paramètre 1 après shift)."
     echo "("$2": ancien troisième paramètre devenu paramètre 2 après shift.)"
     echo " "
     echo "MAIS LA VALEUR DE VAR RESTE la 'ER' : "$VAR"."
for i in "$@"
do
     echo " "
     echo "'for i in \$@': la variable i aura, boucle après boucle, les VALEURS: "$@","
     echo "(attribués à chaque tour de boucle à variable "i".)"
     echo "c'est-à-dire lors de la boucle n°1, elle est identique au paramètre n°1: "$1"."
     echo "puis lors de la boule n°2, elle est identique au paramètre n°2 : "$2"."
     echo " "
     echo "On peut donc donner à grep la chaine:$i comme entrée par le tube," 
     echo "et comme motif le 'ER': $VAR." 
 echo "$i" | grep -E "$VAR" > /dev/null
  if [ $? -eq 0 ]
  then 
    echo " "
    echo " BRAVO ! La ER: $VAR  correspond au motif "$i" "
  else
    echo " "
    echo " ERREUR ! La ER: $VAR ne correspond pas au motif: $i "
    echo " "
  fi
done
 
# ligne 33 (if) : $? (code de retour) -eq (égal à) zéro (pas d'erreur de sortie, donc bonne correspondance)

Lancez-le ainsi (explications détaillées dans le retour) :
(en considérant que le dossier parent de ce script figure dans $PATH, après modification du fichier ~/.bashrc
voir : 3) Exécuter son script depuis n'importe où !)

exp.reg1 "^[a-b]" "abc" "ABC" # ER comme premier argument et le ou les chaînes à vérifier en second, troisième, etc.

INDEX

1) rappel des principaux caractères des expressions rationnelles

Avec grep, sed, awk, perl

Pour une initiation aux expressions régulières ou rationnelles, voir :
http://www.unixmail.fr/une-initiation-aux-expressions-rationnelles/
http://http://culot.org/public/Docs/regexp.html

Un petit rappel non exhaustif des caractères spéciaux relatifs aux expressions rationnelles :

Syntaxe correspondance              :      m/motif/   ou   /motif/
Syntaxe substitution                :      s/motif/chaîne/
Lier une variable à une regex       :      =~ 
                                        $v =~ m/toto/
                                        $v =~ s/toto/titi/
Les caractères spéciaux             :  \    | ( ) [ ] { } ^ $ * + ? .

pour représenter saut de ligne      :  \n
pour représenter retour chariot     :  \r
pour représenter tabulation         :  \t
pour représenter saut de page       :  \f
pour représenter échappement        :  \e

Le point                            : . n'importe quel caractère

La paire de crochet                 : [ ] matche l'un des caractères entre crochet

Intervalle                          : [a-z] l'une des lettres minuscules de l'alphabet
                                    : [A-Z] l'une des lettres majusculs de l'alphabet
                                    : [0-9] un des caractères numériques
                             Tout intervalle est envisageable,
                             par exemple u-w ou toute autre combinaison tant que 
                             le numéro ASCII du premier caractère est inférieur à celui du second.
                             
                             Un intervalle peut prendre place au milieu d'un motif quelconque.
                             
                             Pour rechercher un - littéral, le mettre en dernier dans un intervalle.
                             
Raccourcis pour des ensembles courants : 
     (motifs abrégés)                  : \d qui correspond à [0-9]                       
                                       : \D qui correspond à [cfl0-9]                     
                                       : \w qui correspond à [a-zA-Z0-9_]                 
                                       : \W qui correspond à [cfla-zA-Z0-9_]              
                                       : \t qui correspond à une tabulation               
                                       : \n qui correspond à un saut de ligne             
                                       : \n qui correspond à un saut de ligne            
                                       : \r qui correspond à un retour chariot            
                                       : \s qui correspond à un espace blanc              
                                       : \S qui correspond à N’EST PAS un espace blanc

Quantificateurs                        
  0 fois ou plus                      :  *
  1 fois ou plus                      :  +
  0 ou 1 fois                         :  ?
  n fois exactement                   : {n}

Mémorisation                          : ( )  ( )
                                         ^    ^
                                      : $1    $2
                                        
                                      : prenom.nom@domaine.ext
                                      : /\b(\w+)\.(\w+)@\w+\.w{2,4}\b/
                                      :     $1      $2

Substitution de variables             : $s = "toto";
                                      : if( $v =~ m/$s/ ) { ... }
                                      
Options                               : i  Rend le motif insensible à la case (minuscules/majuscules)
                                             l'expression régulière m/toto/i  
                                      : g  Permet d'effectuer toutes les substitutions, 
                                             pas que la première.
                                      : e  Évalue le membre de droite comme une expression
                                             Perl.
                                      : o  La compilation a lieu une seule fois lors de la première
                                             exécution.

2) ASCII

ordre	caractère	ordre	caractère	ordre	caractère	ordre	caractère	ordre	caractère	ordre	caractère
0	NULL	21	NAK	42	*	63	?	84	T	105	i
1	SOH	22	SYN	43	+	64	@	85	U	106	j
2	STX	23	ETB	44	,	65	A	86	V	107	k
3	ETX	24	CAN	45	-	66	B	87	W	108	l
4	EOT	25	EM	46	.	67	C	88	X	109	m
5	ENQ	26	SUB	47	/	68	D	89	Y	110	n
6	ACK	27	ESC	48	0	69	E	90	Z	111	o
7	BEL	28	FS	49	1	70	F	91	[	112	p
8	BS	29	GS	50	2	71	G	92	\	113	q
9	HT	30	RS	51	3	72	H	93	]	114	r
10	LF	31	US	52	4	73	I	94	^	115	s
11	VT	32	space	53	5	74	J	95	-	116	t
12	FF	33	!	54	6	75	K	96	'	117	u
13	CR	34	“	55	7	76	L	97	a	118	v
14	SO	35	#	56	8	77	M	98	b	119	w
15	SI	36	$	57	9	78	N	99	c	120	x
16	DLE	37	%	58	:	79	O	100	d	121	y
17	DC1	38	&	59	;	80	P	101	e	122	z
18	DC2	39	'	60	<	81	Q	102	f	123	{
19	DC3	40	(	61	=	82	R	103	g	124	\|
20	DC4	41	)	62	>	83	S	104	h	125	}

ordre	caractère
126	~
127	DEL

tuto précédent :

Bash : les caractères de transformation de parametres

¹⁾

N'hésitez pas à y faire part de vos remarques, succès, améliorations ou échecs !

doc/programmation/shells/bash-vii-globs-etendus-regex.1404621248.txt.gz · Dernière modification: 06/07/2014 06:34 par Hypathie

Debian-facile