Vous n'êtes pas identifié(e).
L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT →
Ceci est une ancienne révision du document !
La “représentation symbolique”2) de caractères alpha-numériques par des “métacaractères”3) est de deux types. Et on peut distinguer ces deux types relativement à l'utilisation que l'on en a :
Le premier type de représentation symbolique se fait avec les globs ou patterns simples ; ils servent aux recherches sur les chaînes de caractères et se font généralement en ligne de commandes.
Il a été donné simple récapitulatif des caractères utilisés ici : méta-caractères et métacaractères.
Le deuxième type de de représentation symbolique se fait (à partir de bash 2.01
) avec les globs étendus (ou patterns longs ; "extended patterns"), étudiés ci-dessous ; on les utilise pour effectuer des tests de correspondances simples, en ligne de commandes ou dans des scripts, ou pour modifier les paramètres d'une variable.
Bash 3.0
auquel il a été intégré la possibilité d'une utilisation restreinte des expressions régulière.egrep
, sed
, awk
par exemple).Nous allons développer dans cette page le deuxième type de de représentation symbolique, ce qui recouvrira l'utilisation des globs étendus et l'utilisation des expressions régulières (restreintes) spécifiques au shell Bash.
Puisque tout est bien clair, c'est parti !
On trouve dans man bash, à la fin de la page “Développement des noms de fichiers”, “Motifs génériques”, le tableau suivant :
Regroupement | signification |
---|---|
?(liste-motif) | zéro ou une occurrence des motifs indiqués |
*(liste-motif) | zéro ou plusieurs occurrence des motifs indiqués |
+(liste-motif) | une ou plusieurs occurrence des motifs indiqués |
@(liste-motif) | une occurrence exactement des motifs indiqués |
!(liste-motif) | tout sauf les motifs indiqués les motifs indiqués |
Comment se servir des caractères de ce tableau ?
Avec la commande interne de bash “shopt -s extglob”, bash prend en charge les motifs étendus (extended globs).
On peut alors définir plusieurs motifs, séparés par le caractère | et regroupés dans des parenthèses.
Le premier caractère placé avant les parenthèses (@, !, +, *, ?), fixe le type de correspondances avec les motifs.
Voir : http://www.linuxjournal.com/content/bash-extended-globbing
Notons l'option shopt -s nocasematch (bash version 3.1) permet de retirer la sensibilité à la case.
Par exemple, prenons un fichier de type répertoire nommé “Test” contenant les fichiers : image.bmp image.jpg nom.txt
shopt -s extglob
Valider ensuite toujours dans le même terminal :
ls ~/Test/!(*jpg|*bmp)
/home/hypathie/Test/nom.txt
Ou encore avec le même exemple :
cd ~/Test/
PUIS :
ls
Retour :
image.bmp image.jpg nom.txt
PUIS :
echo !(*jpg|*bmp)
nom.txt
Tester une chaîne par rapport à un motif (représentatif) et non par rapport à une constante littérale.
Par exemple :
#!/bin/bash shopt -s extglob nom=image.jpg if [ "$nom" == *.jpeg ] # correspondance vue précédemment then echo "bonne correspondance" else echo "mauvaise correspondance" fi nom=image.jpg if [[ "$nom" = *.@(jpg|jpeg) ]] # (ligne 12) # emploi de globs (ou motifs) étendus : @ voir tableau ci-dessus then echo "bonne correspondance" else echo "mauvaise correspondance" fi
mauvaise correspondance bonne correspondance
Certaines expressions régulières peuvent être utilisées avec bash, mais elles ne peuvent pas être utilisée comme modèle de comparaison avec des noms de fichier pour effectuer des recherches en ligne de commandes. Elles matchent des variables et s'utilisent dans le cadres des scripts.
Les expressions régulières reconnues par Bash sont nommées ERE (“expression régulière étendues”).
Depuis Bash 3.0, on peut pour se faire utiliser l'opérateur =~
.
Cet opérateur =~
permet alors de vérifier la correspondre entre une chaîne (valeur d'une variable à gauche) et le modèle regex à droite.
Ou encore de vérifier la correspondance entre une variable constituée d'une chaîne de caractères littérales, et une variable constituée d'une regex.
Voici quelques liens qui présentent la syntaxe et les caractères utilisables avec Bash sans les commandes grep, sed, awk.
Lorsque la chaîne correspond au motif, le code retour du test renvoie 0 pour vrai, sinon, il renvoie 1 pour faux.
Si la syntaxe du pattern n'est pas valide le code de retour est 2.
Lorsqu'une chaîne correspond, chacune des parties du motif sont disponibles dans la variable $BASH_REMATCH.
Voici les caractères utilisables :
“signes” regex ERE basique | signification (comparez avec le tableau de l'index) |
---|---|
. | Correspond à tout caractère unique. Dans expressions POSIX entre crochets, le caractère point correspond à un point littéral |
[ ] | Correspond à un seul caractère qui est contenue dans les parenthèses. On peut mélanger [abcx-z] correspond à “a”, “b”, “c”, “x”, “y” ou “z”, de même que [a-cx-z]. Le caractère - est traité comme un caractère littéral si c'est le dernier ou le premier. |
[^ ] | Correspond à un seul caractère qui n'est pas contenu dans les parenthèses. Par exemple, [^ abc] correspond à tout caractère autre que “a”, “b” ou “c”. |
^ | Correspond à la position de départ dans la chaîne. |
$ | Correspond à la position de fin de la chaîne ou la position juste avant un saut de ligne de chaîne interminable. |
( ) | Définit une sous-expression marquée. La chaîne correspondante entre parenthèses peut être rappelé plus tard (voir l'entrée suivante, \ n). Une sous-expression marquée est aussi appelé un groupe de blocs ou de capturer. Mode BRE nécessite \ (\). |
\n | Correspond au nombre n de sous-chaîne, où n est un chiffre de 1 à 9. Écriture équivalente à {n} |
* | Correspond à zéro ou plusieurs fois l'élément précédent. Par exemple, ab * c correspond à “ac”, “abc”, “abbbc», etc. Ou encore, [xyz] * correspond à ” “, “x”, “y”, “z”, “zx”, “zyx”, “xyzzy ”, et ainsi de suite. (ab) * correspond à ”“, “b”, “abab”, “ababab”, et ainsi de suite. |
{m,n} | Correspond au moins à m fois mais pas plus de n fois l'élément précédent. Par exemple, a{3,5} correspond uniquement “aaa”, ou “aaaa”, ou “aaaaa”. |
{ } | “exactement trois fois” par exemple a{3} correspond aaa seulement. (équivalent de aaa d'expression) |
{n,} | “jusqu'à trois fois”. «trois fois ou plus». Par exemple, {3,} correspond aaa ou aaaa, etc. (équivalent de a* ) |
{,n} | a{,3} “jusqu'à trois fois”. Correspond à la chaîne vide ou a ou aa ou aaa (équivalent de | a | aa | aaa . |
POSIX extended | Bash avec correctif, sinon il faut \ devant parenthèse et crochet. \( \) et \{ \} |
autres caractères | signification |
? | Correspond zéro ou une fois à l'élément précédent. Par exemple, ab? c correspond seulement “ac” ou “abc”. |
+ | Correspond une ou plusieurs fois à l'élément précédent. Par exemple, ab + c correspond à “abc”, “abbc”, “abbbc”, et ainsi de suite, mais pas “ac”. |
| | Correspond à l'expression d'avant OU l'expression d'après l'opérateur. Par exemple, abc|def correspond à “abc” ou “def”. |
Et tous les caractères de les classes prédéfinies. | [:alnum:] [:alpha:] [:blank:] [:cntrl:] [:digit:] [:graph:] [:lower:] [:print:] [:punct:] [:space:] [:upper:] [:xdigit:] |
#!/bin/bash for nombre in "1234567" "123478985" "123498761" "12396590" do if [[ $nombre =~ ^[0-9]{9}$ ]] # 9 nombres ({ }) compris entre 0 et 9 ([0-9]) then echo "$nombre comporte 9 nombres" else echo "$nombre ne correspond pas à 9 nombres" fi done
1234567 ne correspond pas à 9 nombres 123478985 comporte 9 nombres 123498761 comporte 9 nombres 12396590 ne correspond pas à 9 nombres
Ou encore :
#!/bin/bash #REGEX="^[[:upper:]]{1}[[:lower:]]{4}$" REGEX="^[A-Z]{1}[a-z]{4}$" var=Hello if [[ $var =~ $REGEX ]] then echo "match" else echo "pas de match" fi
match
#!/bin/bash regex="^([[:alpha:][:blank:]]*)- ([[:digit:]]*) - ([[:alpha:]]?)(.*)jpg$" # ou regex="^([[:alpha:][:blank:]]*)- ([[:digit:]]*) - ([[:alpha:]]?)(.*)[a-z]{3}$" #ou encore regex="^([[:alpha:][:blank:]]*)- ([[:digit:]]*) - ([[:alpha:]]?)(.*)[a-z]\3$" var="image linux - 01 - pingouin.jpg" if [[ $var =~ $regex ]] then echo "Le nom de l'image correspond à l'expression rationnelle." else echo "mauvaise regex" fi
Le nom de l'image correspond à l'expression rationnelle.
^
: début de l'expression
([[:alpha:][:blank:]]*)
:
entre parenthèses: première sous-expression,
avec une paire de crochets contenant deux autres paires de crochets[:apha:]
et[:blank:]
,
avec*
pour signifier que le groupe [alpha et blank] doivent apparaître 0 ou plusieurs fois ; suivi d'un espace.
-
: un tiret avec un espace après comme dans l'expression littérale.
([[:digit:]]*) - ([[:alpha:]]?)
: une sous expression faite d'un groupe composé d'un nombre quelconque d'alphanumérique, un espace, un tiret, une autre sous-expression qui apparaît 0 ou 1 fois (?
).
La sous-expression(.*)
signifie n'importe quel nombre (*
) de tout caractères (.
),
puis littéralementjpg
,
puis$
qui signifie fin de l'expression.
Le tout entre” “
et sans espace autour du égal qui affecte la variable “regex” par la RE.
Et voilà comment avec le shell bash, on peut dresser une expression rationnelle fonctionnant dans les tests !
=~
*
, [ ]
, ?
.|
, @
, !
, +
, ^
{ , }
, ( )
, \n
, ainsi que l'enchâssement de crochets simples [ ]
. $var/.../...
ou $var//.../...
Voici un script “exp.reg1” ; il a pour but de s'exercer aux expressions régulières.
#!/bin/bash #Les "echo" les plus à droite sont là pour expliquer lors du retour ce qui s'y passe dans ce script. VAR="$1" echo "La valeur de VAR est: $VAR." echo "Il y a "$#" paramètres." echo "Le paramètre n°1 est "$1" (la 'ER')." echo "Le paramètre n°2 est "$2" (deuxième argument, chaine1 à matcher)." echo "Le paramètre n°2 est "$3" (le troisième argument, chaine2 à matcher." echo " " shift echo "Avec 'shift', on se décale d'un paramètre." echo "Après 'shift', il reste donc: "$#" paramètre(s)." echo "Et ce(s) paramètre(s) sont: "$1", "$2"." echo "("$1": ancien deuxième paramètre devenu paramètre 1 après shift)." echo "("$2": ancien troisième paramètre devenu paramètre 2 après shift.)" echo " " echo "MAIS LA VALEUR DE VAR RESTE la 'ER' : "$VAR"." for i in "$@" do echo " " echo "'for i in \$@': la variable i aura, boucle après boucle, les VALEURS: "$@"," echo "(attribués à chaque tour de boucle à variable "i".)" echo "c'est-à-dire lors de la boucle n°1, elle est identique au paramètre n°1: "$1"." echo "puis lors de la boule n°2, elle est identique au paramètre n°2 : "$2"." echo " " echo "On peut donc donner à grep la chaine:$i comme entrée par le tube," echo "et comme motif le 'ER': $VAR." echo "$i" | grep -E "$VAR" > /dev/null if [ $? -eq 0 ] then echo " " echo " BRAVO ! La ER: $VAR correspond au motif "$i" " else echo " " echo " ERREUR ! La ER: $VAR ne correspond pas au motif: $i " echo " " fi done # ligne 33 (if) : $? (code de retour) -eq (égal à) zéro (pas d'erreur de sortie, donc bonne correspondance)
Lancez-le comme ci-dessous, explications détaillées dans le retour :
./exp.reg1 "^[a-b]" "abc" "ABC"
La ER comme premier argument de “exp.reg1”, puis le ou les chaînes à vérifier en second, troisième, etc. argument de “exp.reg1”.
Et voilà
Un grand merci à captnfab pour conseils avisés et toutes ses corrections.
Avec grep, sed, awk, perl
Pour une initiation aux expressions régulières ou rationnelles, voir :
http://www.unixmail.fr/une-initiation-aux-expressions-rationnelles/
http://http://culot.org/public/Docs/regexp.html
Un petit rappel non exhaustif des caractères spéciaux relatifs aux expressions rationnelles :
Syntaxe correspondance : m/motif/ ou /motif/ Syntaxe substitution : s/motif/chaîne/ Lier une variable à une regex : =~ $v =~ m/toto/ $v =~ s/toto/titi/ Les caractères spéciaux : \ | ( ) [ ] { } ^ $ * + ? . pour représenter saut de ligne : \n pour représenter retour chariot : \r pour représenter tabulation : \t pour représenter saut de page : \f pour représenter échappement : \e Le point : . n'importe quel caractère La paire de crochet : [ ] matche l'un des caractères entre crochet Intervalle : [a-z] l'une des lettres minuscules de l'alphabet : [A-Z] l'une des lettres majusculs de l'alphabet : [0-9] un des caractères numériques Tout intervalle est envisageable, par exemple u-w ou toute autre combinaison tant que le numéro ASCII du premier caractère est inférieur à celui du second. Un intervalle peut prendre place au milieu d'un motif quelconque. Pour rechercher un - littéral, le mettre en dernier dans un intervalle. Raccourcis pour des ensembles courants : (motifs abrégés) : \d qui correspond à [0-9] : \D qui correspond à [cfl0-9] : \w qui correspond à [a-zA-Z0-9_] : \W qui correspond à [cfla-zA-Z0-9_] : \t qui correspond à une tabulation : \n qui correspond à un saut de ligne : \n qui correspond à un saut de ligne : \r qui correspond à un retour chariot : \s qui correspond à un espace blanc : \S qui correspond à N’EST PAS un espace blanc Quantificateurs 0 fois ou plus : * 1 fois ou plus : + 0 ou 1 fois : ? n fois exactement : {n} Mémorisation : ( ) ( ) ^ ^ : $1 $2 : prenom.nom@domaine.ext : /\b(\w+)\.(\w+)@\w+\.w{2,4}\b/ : $1 $2 Substitution de variables : $s = "toto"; : if( $v =~ m/$s/ ) { ... } Options : i Rend le motif insensible à la case (minuscules/majuscules) l'expression régulière m/toto/i : g Permet d'effectuer toutes les substitutions, pas que la première. : e Évalue le membre de droite comme une expression Perl. : o La compilation a lieu une seule fois lors de la première exécution.
ordre | caractère | ordre | caractère | ordre | caractère | ordre | caractère | ordre | caractère | ordre | caractère |
---|---|---|---|---|---|---|---|---|---|---|---|
0 | NULL | 21 | NAK | 42 | * | 63 | ? | 84 | T | 105 | i |
1 | SOH | 22 | SYN | 43 | + | 64 | @ | 85 | U | 106 | j |
2 | STX | 23 | ETB | 44 | , | 65 | A | 86 | V | 107 | k |
3 | ETX | 24 | CAN | 45 | - | 66 | B | 87 | W | 108 | l |
4 | EOT | 25 | EM | 46 | . | 67 | C | 88 | X | 109 | m |
5 | ENQ | 26 | SUB | 47 | / | 68 | D | 89 | Y | 110 | n |
6 | ACK | 27 | ESC | 48 | 0 | 69 | E | 90 | Z | 111 | o |
7 | BEL | 28 | FS | 49 | 1 | 70 | F | 91 | [ | 112 | p |
8 | BS | 29 | GS | 50 | 2 | 71 | G | 92 | \ | 113 | q |
9 | HT | 30 | RS | 51 | 3 | 72 | H | 93 | ] | 114 | r |
10 | LF | 31 | US | 52 | 4 | 73 | I | 94 | ^ | 115 | s |
11 | VT | 32 | space | 53 | 5 | 74 | J | 95 | - | 116 | t |
12 | FF | 33 | ! | 54 | 6 | 75 | K | 96 | ' | 117 | u |
13 | CR | 34 | ” | 55 | 7 | 76 | L | 97 | a | 118 | v |
14 | SO | 35 | # | 56 | 8 | 77 | M | 98 | b | 119 | w |
15 | SI | 36 | $ | 57 | 9 | 78 | N | 99 | c | 120 | x |
16 | DLE | 37 | % | 58 | : | 79 | O | 100 | d | 121 | y |
17 | DC1 | 38 | & | 59 | ; | 80 | P | 101 | e | 122 | z |
18 | DC2 | 39 | ' | 60 | < | 81 | Q | 102 | f | 123 | { |
19 | DC3 | 40 | ( | 61 | = | 82 | R | 103 | g | 124 | | |
20 | DC4 | 41 | ) | 62 | > | 83 | S | 104 | h | 125 | } |
ordre | caractère |
---|---|
126 | ~ |
127 | DEL |