Vous n'êtes pas identifié(e).
L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT →
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente Prochaine révision Les deux révisions suivantes | ||
doc:programmation:shells:bash-vii-globs-etendus-regex [08/07/2014 19:52] Hypathie [Correspondance de motifs avec les expressions rationnelles] |
doc:programmation:shells:bash-vii-globs-etendus-regex [09/07/2014 11:32] Hypathie [Correspondance de motifs avec les expressions rationnelles] |
||
---|---|---|---|
Ligne 18: | Ligne 18: | ||
* [[atelier:chantier:page-man-bash-v-les-tableaux|Bash : les tableaux]] | * [[atelier:chantier:page-man-bash-v-les-tableaux|Bash : les tableaux]] | ||
* [[atelier:chantier:man-bash-vi-les-caracteres-de-transformation-de-parametres|Bash : les caractères de transformation de parametres]] | * [[atelier:chantier:man-bash-vi-les-caracteres-de-transformation-de-parametres|Bash : les caractères de transformation de parametres]] | ||
+ | * ;-) | ||
- | =====Correspondance de motifs avec les globs étendus===== | + | =====Rappel et contexte===== |
- | ===Récapitulatif=== | + | |
- | Bash propose deux différents types de correspondances (pattern matching), en fonction de deux rôles :\\ | + | |
- | - la sélection des noms de fichiers dans un répertoire (on recherche par exemple différents noms de fichiers) ;\\ | + | |
- | - déterminer si une chaîne est conforme à un format désiré.\\ | + | |
- | Il est possible aussi d'effectuer des substitutions de caractères, dans ce cas l'expression régulières permet d'aller changer le contenu d'un fichier. | + | La "représentation symbolique"((en anglais : "matching")) de caractères alpha-numériques par des "métacaractères"((termes employé là dans un sens général)) est de deux types. Et on peut distinguer ces deux types relativement à l'utilisation que l'on en a :\\ |
+ | - __sélectionner__ des noms de fichiers dans un répertoire ;\\ | ||
+ | - __déterminer__ si une chaîne est conforme à un format désiré.\\ | ||
- | Le premier type de correspondance se fait avec les globs ou patterns simples ; on effectue des recherches en ligne de commandes.**\\ **RAPPEL : [[doc:programmation:shell:les-metacaracteres]]\\ | ||
- | Le deuxième type de correspondance se fait (à partir de bash 2.01) avec les globs ou patterns longs (extended patterns), dans les tests de correspondances simples, en ligne de commandes ou dans des scripts.\\ | ||
- | Le troisième type de correspondance se fait dans les scripts de test, au moyen des commandes internes au shell. Il s'agit bien avec la version de Bash 3.0 de modèles d'expressions régulières. Mais attention, il ne s'agit plus alors de recherches de noms de fichiers ou de mots, ni de substitutions de caractères dans un texte. Il s'agit de "traiter" la chaîne constituant la valeur d'une variable. Pour ce qui concerne, la substitution de caractères d'un fichier (exécutable ou non), il s'agit de l'emploi de regex avec la commande commandes externes (grep, sed, awk par exemple). Nous en montreront le détail dans une prochaine page.\\ | + | ===Rappel : === |
+ | __Le premier type de représentation symbolique__ se fait avec [[doc:programmation:shell:les-metacaracteres|les globs ou patterns simples]] ; ils servent aux recherches sur les chaînes de caractères et se font généralement en ligne de commandes.\\ Il a été donné simple récapitulatif des caractères utilisés ici : [[atelier:chantier:bash-les-differents-caracteres-speciaux#metacaracteres-et-meta-caracteres|méta-caractères et métacaractères]].\\ | ||
- | * À voir : | + | ===Distinguer le "globbing" étendu des expressions régulières === |
+ | __Le deuxième type de de représentation symbolique__ se fait (à partir de ''bash 2.01'') avec [[atelier:chantier:bash-vii-globs-etendus-regex#les-globs-etendus|les globs étendus (ou patterns longs ; "extended patterns"), étudiés ci-dessous]] ; on les utilise pour effectuer des tests de correspondances simples, en ligne de commandes ou dans des scripts, ou pour [[atelier:chantier:man-bash-vi-les-caracteres-de-transformation-de-parametres|modifier les paramètres d'une variable]].\\ | ||
+ | |||
+ | ===Distinguer les expressions régulières de Bash de celles d'autres programmes=== | ||
+ | * __Ce deuxième type de représentation symbolique__ s'est développé avec ''Bash 3.0'' auquel il a été intégré la possibilité d'une utilisation restreinte des expressions régulière.\\ Mais attention, il ne s'agit plus alors de recherches de noms de fichiers ou de mots, ni de modifications de paramètres.\\ On s'en sert uniquement pour la correspondance entre une variable et une expression régulière, jamais pour la substitution tel que le permet l'utilisation avancée des expressions régulières. | ||
+ | |||
+ | * On retrouve ce deuxième type de représentation symbolique avec __l'usage avancé des expressions régulières__.\\ Mais elles permettent bien plus que ce que nous allons voir ici. En particulier, la substitution de caractères dans un fichier (exécutable ou non).\\ Il est nécessaire pour utiliser [[doc:programmation:shell:regexp|les regexp]] d'en passer par __des programmes externes et spécifiques à l'utilisation des expression régulières__ (''egrep'', ''sed'', ''awk'' par exemple).\\ [[atelier:chantier:bash-vii-globs-etendus-regex#index|L'index ci-dessous]] donne un simple aperçu des caractères utilisables par de ces différents programmes externes au shell Bash, et déborde du sujet, si ne n'est que le shell Bash permet de les installer puis de les lancer.\\ À voir : | ||
* [[doc:systeme:grep]] | * [[doc:systeme:grep]] | ||
* [[doc:systeme:sed]] | * [[doc:systeme:sed]] | ||
- | **Nous allons abordé dans cette page les deux points qui ne l'ont pas encore été : les globs étendus et les expressions régulières de type "bashistes" dans les scripts de tests**. | + | >Nous allons développer dans cette page le deuxième type de de représentation symbolique, ce qui recouvrira l'utilisation des globs étendus et l'utilisation des expressions régulières (restreintes) spécifiques au shell Bash. |
+ | Puisque tout est bien clair, c'est parti ! 8-) | ||
- | ==== Les globs étendus.==== | + | |
+ | ===== Correspondance de motifs avec les globs étendus===== | ||
On trouve dans man bash, à la fin de la page "Développement des noms de fichiers", "Motifs génériques", le tableau suivant :\\ | On trouve dans man bash, à la fin de la page "Développement des noms de fichiers", "Motifs génériques", le tableau suivant :\\ | ||
^ Regroupement ^ signification ^ | ^ Regroupement ^ signification ^ | ||
Ligne 57: | Ligne 63: | ||
Notons l'option shopt -s nocasematch (bash version 3.1) permet de retirer la sensibilité à la case. | Notons l'option shopt -s nocasematch (bash version 3.1) permet de retirer la sensibilité à la case. | ||
- | ====Les globs étendus dans le terminal==== | + | ====Les globs étendus dans le terminal==== |
- | Par exemple, prenons un fichier de type répertoire nommé "Test" contenant les fichiers : image.bmp image.jpg nom.txt | + | |
+ | ===Préparation=== | ||
+ | <code user> | ||
+ | mkdir Test && cd Test && touch image.bmp image.jpg nom.txt && cd .. | ||
+ | </code> | ||
+ | >Création d'un fichier de type répertoire nommé "Test", contenant les fichiers : image.bmp image.jpg nom.txt | ||
+ | |||
+ | ===Exercice=== | ||
<code user> | <code user> | ||
shopt -s extglob | shopt -s extglob | ||
</code> | </code> | ||
- | Valider ensuite toujours dans le même terminal : | + | |
+ | >Pour les commandes qui suivent, il faut valider toujours dans le même terminal. | ||
<code user> | <code user> | ||
ls ~/Test/!(*jpg|*bmp) | ls ~/Test/!(*jpg|*bmp) | ||
</code> | </code> | ||
+ | |||
+ | >Cela signifie : liste-moi le ou les fichiers dont le nom ne comporte pas (''!'') | ||
+ | >soit "zéro ou plein de caractères" (''*'') puis ''jpg'' | ||
+ | >soit "zéro ou plein de caractères" (''*'') puis ''bmp'' | ||
+ | |||
<code> | <code> | ||
/home/hypathie/Test/nom.txt | /home/hypathie/Test/nom.txt | ||
</code> | </code> | ||
- | Ou encore avec le même exemple : | + | >C'est le chemin absolu (nom complet) du (ou des) autre(s) fichiers que ceux finissant par ''jpg'' ou ''bmp''. |
+ | |||
+ | * à propos de cet exemple : | ||
<code user> | <code user> | ||
cd ~/Test/ | cd ~/Test/ | ||
</code> | </code> | ||
- | PUIS : | + | |
<code user> | <code user> | ||
- | ls | + | ls !(*jpg|*bmp) |
- | </code> | + | |
- | Retour : | + | |
- | <code> | + | |
- | image.bmp image.jpg nom.txt | + | |
- | </code> | + | |
- | PUIS : | + | |
- | <code user> | + | |
- | echo !(*jpg|*bmp) | + | |
</code> | </code> | ||
+ | |||
<code> | <code> | ||
nom.txt | nom.txt | ||
</code> | </code> | ||
+ | |||
+ | >C'est le nom simplifié | ||
==== Les globs étendus dans les scripts==== | ==== Les globs étendus dans les scripts==== | ||
Ligne 132: | Ligne 149: | ||
=====Correspondance de motifs avec les expressions rationnelles===== | =====Correspondance de motifs avec les expressions rationnelles===== | ||
- | ==== L'opérateur de correspondance =~ d'une expression rationnelle dans une expression de tests [[ ]] ==== | + | ==== L'opérateur de correspondance =~ ==== |
- | Certaines expressions régulières peuvent être utilisées avec bash, mais elles ne peuvent pas être utilisée comme modèle de comparaison avec des noms de fichier pour effectuer des recherches en ligne de commandes. Elles matchent des variables et s'utilisent dans le cadres des scripts.\\ | + | Bash peut utiliser les expressions régulières mais de façon restreinte.\\ Elles ne peuvent pas être utilisée comme modèle de comparaison avec des noms de fichier ou pour effectuer des recherches en ligne de commandes.\\ Elles servent seulement à "matcher" des variables, et elles ne s'utilisent que dans le cadres des scripts.\\ |
- | Les expressions régulières reconnues par Bash sont nommées ERE ("expression régulière étendues").\\ | + | Depuis __Bash 3.0__, on peut pour se faire utiliser l'opérateur ''=~''.\\ Cet opérateur ''=~'' permet : |
- | Depuis __Bash 3.0__, on peut pour se faire utiliser l'opérateur ''=~''.\\ Cet opérateur ''=~'' permet alors de vérifier la correspondre entre une chaîne (valeur d'une variable à gauche) et le modèle regex à droite.\\ | + | * de vérifier la correspondre entre une chaîne (valeur d'une variable à gauche) et le modèle regex à droite ; |
- | Ou encore de vérifier la correspondance entre une variable constituée d'une chaîne de caractères littérales, et une variable constituée d'une regex.\\ | + | * ou encore de vérifier la correspondance entre une variable (constituée d'une chaîne de caractères littérales), et une variable constituée d'une regex. |
- | Voici quelques liens qui présentent la syntaxe et les caractères utilisables avec Bash sans les commandes grep, sed, awk.\\ | + | |
+ | Voici quelques liens qui présentent la syntaxe et les caractères utilisables avec Bash (sans les commandes ''grep'', ''sed'', ''awk'').\\ | ||
* [[http://mywiki.wooledge.org/RegularExpression]]\\ | * [[http://mywiki.wooledge.org/RegularExpression]]\\ | ||
* [[https://en.wikipedia.org/wiki/Regular_expression#Standards]]\\ | * [[https://en.wikipedia.org/wiki/Regular_expression#Standards]]\\ | ||
+ | <note> | ||
+ | À savoir :\\ | ||
Lorsque la chaîne correspond au motif, le code retour du test renvoie 0 pour vrai, sinon, il renvoie 1 pour faux.\\ | Lorsque la chaîne correspond au motif, le code retour du test renvoie 0 pour vrai, sinon, il renvoie 1 pour faux.\\ | ||
Si la syntaxe du pattern n'est pas valide le code de retour est 2.\\ | Si la syntaxe du pattern n'est pas valide le code de retour est 2.\\ | ||
- | Lorsqu'une chaîne correspond, chacune des parties du motif sont disponibles dans la variable $BASH_REMATCH. | + | Lorsqu'une chaîne correspond, chacune des parties du motif sont disponibles dans la variable ''$BASH_REMATCH''. |
- | + | </note> | |
- | ==== Liste des caractères utilisés dans les expressions régulières étendues==== | + | ==== Tableau des caractères utilisés dans les expressions régulières étendues==== |
**Voici les caractères utilisables :** | **Voici les caractères utilisables :** | ||
Ligne 169: | Ligne 189: | ||
| ''+'' | Correspond une ou plusieurs fois à l'élément précédent. Par exemple, ab + c correspond à "abc", "abbc", "abbbc", et ainsi de suite, mais pas "ac". | | | ''+'' | Correspond une ou plusieurs fois à l'élément précédent. Par exemple, ab + c correspond à "abc", "abbc", "abbbc", et ainsi de suite, mais pas "ac". | | ||
| ''|'' | Correspond à l'expression d'avant OU l'expression d'après l'opérateur. Par exemple, ''abc|def'' correspond à "abc" ou "def". | | | ''|'' | Correspond à l'expression d'avant OU l'expression d'après l'opérateur. Par exemple, ''abc|def'' correspond à "abc" ou "def". | | ||
- | | Et tous les caractères de class posix(([[doc:programmation:shell:regexp#les-ensembles-de-caracteres-possibles]])) |''[:alnum:] [:alpha:] [:blank:] [:cntrl:] [:digit:] [:graph:] [:lower:] [:print:] [:punct:] [:space:] [:upper:] [:xdigit:]'' | | + | | Et toutes [[doc:programmation:shell:regexp#les-ensembles-de-caracteres-possibles|les classes prédéfinies]]. |''[:alnum:] [:alpha:] [:blank:] [:cntrl:] [:digit:] [:graph:] [:lower:] [:print:] [:punct:] [:space:] [:upper:] [:xdigit:]'' | |
- | ==== Apprenons à construire une expression régulière "bashiste"==== | + | ==== Apprenons à construire une expression régulière==== |
<code bash> | <code bash> | ||
Ligne 193: | Ligne 213: | ||
</code> | </code> | ||
- | + | * Ou encore : | |
- | Ou encore : | + | |
<code bash> | <code bash> | ||
Ligne 231: | Ligne 250: | ||
Le nom de l'image correspond à l'expression rationnelle. | Le nom de l'image correspond à l'expression rationnelle. | ||
</code> | </code> | ||
- | ===explication=== | + | |
+ | * Explication : | ||
> '' ^ '' : début de l'expression | > '' ^ '' : début de l'expression | ||
Ligne 242: | Ligne 262: | ||
> '' - '' : un tiret avec un espace après comme dans l'expression littérale. | > '' - '' : un tiret avec un espace après comme dans l'expression littérale. | ||
- | > ''([[:digit:]]*) - ([[:alpha:]]?)'' : une sous expression faite d'un groupe composé d'un nombre quelconque d'alphanumérique, un espace, un tiret, une autre sous-expression qui apparaît 0 ou 1 fois (''?''). | + | > ''<nowiki>([[:digit:]]*) - ([[:alpha:]]?)</nowiki>'' : une sous expression faite d'un groupe composé d'un nombre quelconque d'alphanumérique, un espace, un tiret, une autre sous-expression qui apparaît 0 ou 1 fois (''?''). |
> La sous-expression ''(.*)'' signifie n'importe quel nombre ( ''*'' ) de tout caractères (''.''), | > La sous-expression ''(.*)'' signifie n'importe quel nombre ( ''*'' ) de tout caractères (''.''), | ||
Ligne 266: | Ligne 286: | ||
====Un script pour s'exercer au ER==== | ====Un script pour s'exercer au ER==== | ||
- | Voici un script "exp.reg1" ; il a pour but de s'exercer aux expressions régulières.\\ | + | * Voici un script "exp.reg1" |
<code bash> | <code bash> | ||
Ligne 311: | Ligne 331: | ||
# ligne 33 (if) : $? (code de retour) -eq (égal à) zéro (pas d'erreur de sortie, donc bonne correspondance) | # ligne 33 (if) : $? (code de retour) -eq (égal à) zéro (pas d'erreur de sortie, donc bonne correspondance) | ||
</code> | </code> | ||
- | Lancez-le comme ci-dessous, explications détaillées dans le retour :\\ | + | * Lancez-le comme ci-dessous, explications détaillées dans le retour :\\ |
<code user> | <code user> | ||
Ligne 412: | Ligne 432: | ||
|8 | BS | 29 | GS | 50 | 2 | 71 | G | 92 | \ | 113 | q | | |8 | BS | 29 | GS | 50 | 2 | 71 | G | 92 | \ | 113 | q | | ||
|9 | HT | 30 | RS | 51 | 3 | 72 | H | 93 | ] | 114 | r | | |9 | HT | 30 | RS | 51 | 3 | 72 | H | 93 | ] | 114 | r | | ||
- | |10 | LF | 31 | US | 52 | 4 | 73 | I | 94 | <code>^</code> | 115 | s | | + | |10 | LF | 31 | US | 52 | 4 | 73 | I | 94 | ''^'' | 115 | s | |
- | |11 | VT | 32 |space | 53 | 5 | 74 | J | 95 | - | 116 | t | | + | |11 | VT | 32 |space | 53 | 5 | 74 | J | 95 | - | 116 | t | |
|12 | FF | 33 | ! | 54 | 6 | 75 | K | 96 | ' | 117 | u | | |12 | FF | 33 | ! | 54 | 6 | 75 | K | 96 | ' | 117 | u | | ||
|13 | CR | 34 | " | 55 | 7 | 76 | L | 97 | a | 118 | v | | |13 | CR | 34 | " | 55 | 7 | 76 | L | 97 | a | 118 | v | | ||
Ligne 421: | Ligne 441: | ||
|17 | DC1 | 38 | & | 59 | ; | 80 | P | 101 | e | 122 | z | | |17 | DC1 | 38 | & | 59 | ; | 80 | P | 101 | e | 122 | z | | ||
|18 | DC2 | 39 | ' | 60 | < | 81 | Q | 102 | f | 123 | { | | |18 | DC2 | 39 | ' | 60 | < | 81 | Q | 102 | f | 123 | { | | ||
- | |19 | DC3 | 40 | ( | 61 | = | 82 | R | 103 | g | 124 |<code>|</code> | | + | |19 | DC3 | 40 | ( | 61 | = | 82 | R | 103 | g | 124 |''|'' | |
|20 | DC4 | 41 | ) | 62 | > | 83 | S | 104 | h | 125 | } | | |20 | DC4 | 41 | ) | 62 | > | 83 | S | 104 | h | 125 | } | | ||