logo Debian Debian Debian-France Debian-Facile Debian-fr.org Forum-Debian.fr Debian ? Communautés logo inclusivité

Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).


L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT → ODT PDF Export

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
Prochaine révision Les deux révisions suivantes
doc:programmation:shells:bash-vii-globs-etendus-regex [31/05/2014 12:27]
Hypathie [INDEX]
doc:programmation:shells:bash-vii-globs-etendus-regex [19/07/2014 08:01]
Hypathie [Correspondance de motifs avec les expressions rationnelles]
Ligne 5: Ligne 5:
   * Débutant, à savoir : [[:​doc:​systeme:​commandes:​le_debianiste_qui_papillonne|Utiliser GNU/Linux en ligne de commande, tout commence là !.]] :-)   * Débutant, à savoir : [[:​doc:​systeme:​commandes:​le_debianiste_qui_papillonne|Utiliser GNU/Linux en ligne de commande, tout commence là !.]] :-)
   * Suivi : {{à-placer}} ​   * Suivi : {{à-placer}} ​
-    * Création par **Hypathie** 10/04/2014+    * Création par [[user>Hypathie]] 10/04/2014
     * Testé par <​Hypathie>​ le <Avril 2014>     * Testé par <​Hypathie>​ le <Avril 2014>
-  * Commentaires sur le forum : [[url | Lien vers le forum concernant ce tuto]] ((N'​hésitez pas à y faire part de vos remarques, succès, améliorations ou échecs !))+  * Commentaires sur le forum : [[:url-invalide ​| Lien vers le forum concernant ce tuto]] ((N'​hésitez pas à y faire part de vos remarques, succès, améliorations ou échecs !))
  
-**RAPPEL DU PLAN DE LA SÉRIE : **\\ 
  
-1) Intro : [[atelier:​chantier:​bash-les-differents-caracteres-speciaux|Bash : Introduction]] 
  
-2) chap I : [[atelier:​chantier:​la-page-man-bash-les-caracteres-speciaux|Bash : Détail et caractères]]+  * [[atelier:chantier:​bash-les-differents-caracteres-speciaux|Vision d'​ensemble]] 
 +  * [[atelier:​chantier:​la-page-man-bash-les-caracteres-speciaux|Bash : Détail et caractères]] 
 +  * [[atelier:​chantier:​la-page-man-bash-ii-les-operateurs-lexicographiques|Bash : les opérateurs lexicographiques]] 
 +  * [[atelier:​chantier:​page-man-bash-iii-les-operateurs-de-comparaison-numerique|Bash : les opérateurs de comparaison numérique]] 
 +  * [[atelier:​chantier:​page-man-bash-iv-symboles-dans-les-calculs-mathematiques|Bash : les symboles dans les calculs]] 
 +  * [[atelier:​chantier:​page-man-bash-v-les-tableaux|Bash : les tableaux]] 
 +  * [[atelier:​chantier:​man-bash-vi-les-caracteres-de-transformation-de-parametres|Bash : les caractères de transformation de parametres]] 
 +  * ;-)
  
-3) chap II : [[atelier:​chantier:​la-page-man-bash-ii-les-operateurs-lexicographiques|Bash : les opérateurs lexicographiques]] 
  
-4) chap III : [[atelier:​chantier:​page-man-bash-iii-les-operateurs-de-comparaison-numerique|Bash : les opérateurs de comparaison numérique]]+=====Rappel et contexte=====
  
-5chap IV : [[atelier:chantier:page-man-bash-iv-symboles-dans-les-calculs-mathematiques|Bash : les symboles dans les calculs]]+La "​représentation symbolique"​((en anglais : "​matching"​)de caractères alpha-numériques par des "​métacaractères"​((termes employé là dans un sens général ​: [[http://​fr.wiktionary.org/​wiki/​m%C3%A9tacaract%C3%A8re]])) est de deux types. Et on peut distinguer ces deux types relativement à l'​utilisation que l'on en fait :\\  
 +  ​__sélectionner__ des noms de fichiers ​dans un répertoire ;\\  
 +  ​__déterminer__ si une chaîne est conforme à un format désiré.\\ ​
  
-6) chap V : [[atelier:​chantier:​page-man-bash-v-les-tableaux|Bash : les tableaux]] 
  
-7chap VI : [[atelier:​chantier:​man-bash-vi-les-caracteres-de-transformation-de-parametres|Bash : les caractères de transformation ​de parametres]]+===Rappel : === 
 +__Le premier type de représentation symbolique__ se fait avec [[doc:​programmation:​shell:​les-metacaracteres|les globs ou patterns simples]]((désignés aussi de "​caractères génériques"​)) ; ils servent aux recherches sur les chaînes de caractères et se font généralement en ligne de commandes.\\ Il a été donné un simple récapitulatif des caractères utilisés ici : [[atelier:​chantier:​bash-les-differents-caracteres-speciaux#​definition-usuelle-de-metacaractere-et-detail|définition usuelle ​de métacaractère"​]].\\
  
-8chap VIII C'est ici !+===Distinguer le "​globbing"​ étendu des expressions régulières === 
 +__Le deuxième type de de représentation symbolique__ se fait (à partir de ''​bash 2.01''​avec [[atelier:​chantier:​bash-vii-globs-etendus-regex#​les-globs-etendus|les globs étendus ]]((appelés aussi "​patterns longs" ; en anglais "​extended patterns"​)),​ étudiés ci-dessous ; on les utilise pour effectuer des tests de correspondances simples, en ligne de commandes ou dans des scripts, ou pour [[atelier:​chantier:man-bash-vi-les-caracteres-de-transformation-de-parametres|modifier les paramètres d'une variable]].\\ ​
  
 +===Distinguer les expressions régulières de Bash de celles d'​autres programmes===
 +  * __Ce deuxième type de représentation symbolique__ s'est développé avec ''​Bash 3.0''​ auquel il a été intégré la possibilité d'une utilisation restreinte des expressions régulières.\\ Mais attention, il ne s'agit plus alors de recherches de noms de fichiers ou de mots, ni de modifications de paramètres.\\ ​ On s'en sert uniquement pour la correspondance entre une variable et une expression régulière,​ jamais pour la substitution telle que le permet l'​utilisation avancée des expressions régulières. ​
  
-=====Correspondance ​de motifs ​avec les globs étendus===== +  * On retrouve ce deuxième type de représentation symbolique ​avec __l'​usage avancé des expressions régulières__.\\ Mais elles permettent bien plus que ce que nous allons voir ici. En particulier,​ la substitution ​de caractères dans un fichier ​(exécutable ou non).\\ Il est nécessaire pour utiliser [[doc:​programmation:​shell:​regexp|les regexp]] d'en passer par __des programmes externes et spécifiques à l'​utilisation des expressions régulières__ (''​egrep'',​ ''​sed'',​ ''​awk''​ par exemple).\\ Ci-dessous, l'​[[atelier:​chantier:​bash-vii-globs-etendus-regex?&#​index-1|index 1]] donne un simple aperçu des caractères utilisables avec ces différents programmes externes au shell Bash, et déborde du sujet, si ne n'est que le shell Bash permet ​de les installer puis de les lancer.\\ À voir : 
-===Récapitulatif=== +    ​[[doc:​systeme:​grep]] 
-**Bash propose deux différents types de correspondances** ​(pattern matching), **en fonction ​de deux rôles ​:** +    ​[[doc:​systeme:​sed]] 
 + 
  
-**1) la sélection des noms de fichiers ​dans un répertoire (on recherche par exemple différents noms de fichiers) ;**\\  +>Nous allons développer ​dans cette page le deuxième type de de représentation symbolique, ce qui recouvrira ​l'utilisation des globs étendus et l'utilisation ​des expressions régulières ​(restreintesspécifiques ​au shell Bash.
- +
-**2) déterminer si une chaîne est conforme à un format désiré.**\\  +
- +
-**Il est possible aussi d'​effectuer des substitutions ​de caractèresdans ce cas l'expression régulières permet d'aller changer le contenu d'un fichier.** +
- +
-**Le premier type de correspondance se fait avec les globs ou patterns simples ; on effectue ​des recherches en ligne de commandes.**\\ **RAPPEL : [[doc:​programmation:​shell:​les-metacaracteres]]**\\  +
- +
-**Le deuxième type de correspondance se fait (à partir de bash 2.01avec les globs ou patterns longs (extended patterns), dans les tests de correspondances simples, en ligne de commandes ou dans des scripts**.\\  +
- +
-**Le troisième type de correspondance se fait dans les scripts de test, au moyen des commandes internes ​au shell. Il s'agit bien avec la version de Bash 3.0 de modèles d'​expressions régulières. Mais attention, il ne s'agit plus alors de recherches de noms de fichiers ou de mots, ni de substitutions de caractères dans un texte. Il s'agit de "​traiter"​ la chaîne constituant la valeur d'une variable. Pour ce qui concerne, la substitution de caractères d'un fichier (exécutable ou non), il s'agit de l'​emploi de regex avec la commande commandes externes (grep, sed, awk par exemple). Nous en montreront le détail dans une prochaine page.**\\  +
- +
-**À voir :** +
-  * **[[doc:​systeme:​grep]]** +
- +
-  * **[[doc:​systeme:​sed]]** +
- +
  
-**Nous allons abordé dans cette page les deux points qui ne l'ont pas encore été : les globs étendus et les expressions régulières de type "​bashistes"​ dans les scripts de tests**.+Puisque tout est bien clair, c'est parti ! 8-)
  
  
-====1) Les globs étendus.====+===== Correspondance de motifs avec les globs étendus=====
 On trouve dans man bash, à la fin de la page "​Développement des noms de fichiers",​ "​Motifs génériques",​ le tableau suivant :\\  On trouve dans man bash, à la fin de la page "​Développement des noms de fichiers",​ "​Motifs génériques",​ le tableau suivant :\\ 
 ^ Regroupement ​   ^ signification ​                                           ^ ^ Regroupement ​   ^ signification ​                                           ^
Ligne 69: Ligne 63:
 Notons l'​option shopt -s nocasematch (bash version 3.1) permet de retirer la sensibilité à la case. Notons l'​option shopt -s nocasematch (bash version 3.1) permet de retirer la sensibilité à la case.
  
-====2)Les globs étendus dans le terminal====  +====Les globs étendus dans le terminal==== 
-Par exemple, prenons ​un fichier de type répertoire nommé "​Test"​ contenant les fichiers : image.bmp ​ image.jpg ​ nom.txt+  
 +===Préparation=== 
 +<code user> 
 +mkdir Test && cd Test && touch image.bmp ​ image.jpg ​ nom.txt && cd .. 
 +</​code>​ 
 +>​Création d'un fichier de type répertoire nommé "​Test"​contenant les fichiers : image.bmp ​ image.jpg ​ nom.txt 
 + 
 +===Exercice===
  
 <code user> <code user>
 shopt -s extglob shopt -s extglob
 </​code>​ </​code>​
-Valider puis dans le même terminal ​:+ 
 +>Pour les commandes qui suivent, il faut valider toujours ​dans le même terminal.
  
 <code user> <code user>
 ls ~/​Test/​!(*jpg|*bmp) ls ~/​Test/​!(*jpg|*bmp)
-#retour: /​home/​hypathie/​Test/​nom.txt 
 </​code>​ </​code>​
  
-Ou encore avec le même exemple :+>Cela signifie : liste-moi le ou les fichiers dont le nom ne comporte pas (''​!''​) 
 +>soit "zéro ou plein de caractères"​ (''​*''​) puis ''​jpg''​ 
 +>soit "zéro ou plein de caractères"​ (''​*''​) puis ''​bmp''​  
 + 
 +<​code>​ 
 +/​home/​hypathie/​Test/​nom.txt 
 +</​code>​ 
 + 
 +>​C'​est ​le chemin absolu (nom complet) du (ou des) autre(s) fichiers que ceux finissant par ''​jpg''​ ou ''​bmp''​. 
 + 
 +  * à propos de cet exemple : 
 <code user> <code user>
  cd ~/Test/  cd ~/Test/
- ~/Test$ ls +</code>
  
-#retour: image.bmp ​ image.jpg ​ nom.txt +<code user> 
- +ls !(*jpg|*bmp) 
-~/Test$ echo !(*jpg|*bmp)+</​code>​
  
-#​retour: ​nom.txt+<​code>​ 
 +nom.txt
 </​code>​ </​code>​
-====3) Les globs étendus dans les scripts====+ 
 +>​C'​est le nom simplifié 
 + 
 +==== Les globs étendus dans les scripts====
 ===Contexte :=== ===Contexte :===
 Tester une chaîne par rapport à un motif (représentatif) et non par rapport à une constante littérale.\\ ​ Tester une chaîne par rapport à un motif (représentatif) et non par rapport à une constante littérale.\\ ​
Ligne 108: Ligne 124:
   echo "​mauvaise correspondance"​   echo "​mauvaise correspondance"​
 fi fi
-# => mauvaise correspondance+
 nom=image.jpg nom=image.jpg
 if [[ "​$nom"​ = *.@(jpg|jpeg) ]]  # (ligne 12)  if [[ "​$nom"​ = *.@(jpg|jpeg) ]]  # (ligne 12) 
Ligne 117: Ligne 133:
   echo "​mauvaise correspondance"​   echo "​mauvaise correspondance"​
 fi fi
-# => bonne correspondance 
 </​code>​ </​code>​
 +<​code>​
 +mauvaise correspondance
 +bonne correspondance
 +</​code>​
 +
 <note tip> <note tip>
 Quelques remarques sur la ligne 12.\\ Quelques remarques sur la ligne 12.\\
  
-**1) Contrairement à la correspondance simple rappelée au-dessus les doubles crochets sont obligatoires. C'est eux qui enclenchent le mécanisme de comparaison. On peut mettre un double égal, pour plus de clarté.**\\ +  - Contrairement à la correspondance simple rappelée au-dessus les doubles crochets sont obligatoires. C'est eux qui enclenchent le mécanisme de comparaison. On peut mettre un double égal, pour plus de clarté.\\ 
-  +  ​- ​Le "métacaractère" ou glob simple ​''​*'' ​signifie "un nombre quelconque de caractères"​ et le ''​?'' ​signifie "un seul caractère",​ comme pour les globs simples.\\  
-**2) Le "méta-caractère" ou glob simple * signifie "un nombre quelconque de caractères"​ et le ? signifie "un seul caractère",​ comme pour les globs simples.**\\  +  ​- ​CES SIGNIFICATIONS SONT CONSERVÉES lors de l'​emploi des globs étendus, et leurs significations et conservée mais s'​applique à une syntaxe différentes dans les expressions régulières.\\ 
-**CES SIGNIFICATIONS SONT CONSERVÉES lors de l'​emploi des globs étendus, et leurs significations et conservée mais s'​applique à une syntaxe différentes dans les expressions régulières.**\\ +  ​- ​Ne surtout pas mettre de ''​" "'' ​autour de ''​*'' ​: le shell chercherait alors les chaînes dont le premier caractère est une ''​*''​, ni dans les cas simples, ni lorsqu'​on utilise les motifs étendus.
- +
-**3) Ne surtout pas mettre de " " autour de * : le shell chercherait alors les chaînes dont le premier caractère est une *, ni dans les cas simples, ni lorsqu'​on utilise les motifs étendus.**+
 </​note>​ </​note>​
  
 =====Correspondance de motifs avec les expressions rationnelles===== =====Correspondance de motifs avec les expressions rationnelles=====
-====1) L'​opérateur de correspondance =~ d'une expression rationnelle dans une expression de tests [[  ]] ====+==== L'​opérateur de correspondance =~ ====
  
-**Certaines ​expressions régulières ​peuvent être utilisées avec bash, mais elles ne peuvent pas être utilisée comme modèle de comparaison avec des noms de fichier pour effectuer des recherches en ligne de commandes. Elles matchent ​des variables et s'​utilisent dans le cadres des scripts**.\\ +Bash peut utiliser les expressions régulières mais de façon restreinte ;  
 +  * elles ne peuvent pas être utilisée comme modèle de comparaison avec des noms de fichier ​ou pour effectuer des recherches en ligne de commandes. 
 +  * elles ne peuvent pas servir à modifier le contenu d'un fichier.  
 +Elles servent seulement à "​matcher" ​des variableset elles ne s'​utilisent ​que dans le cadres des scripts.\\ ​
  
-Les expressions régulières reconnues par Bash sont nommées ERE ("​expression régulière étendues).\\  +Depuis ​__Bash ​3.0__, on peut pour se faire utiliser l'​opérateur ​''​=~''​.\\ ​
-Depuis ​**Bash ​3.0**, on peut pour se faire utiliser l'​opérateur =~ avec un modèle regex, "​mot-clé"​. <​code>​[[ mot-clé]] ​ # modèle regex</​code>​ **Cet opérateur =~ permet alors de vérifier la correspondre entre une chaîne (valeur d'une variable à gauche) et le modèle regex à droite.**\\  +
-**Ou encore de vérifier la correspondance entre une variable constituée d'une chaîne de caractères littérales,​ et une variable constituée d'une regex.** +
-Voici quelques liens qui présentent la syntaxe et les caractères utilisables avec Bash sans les commandes grep, sed, awk.\\  +
-[[http://​mywiki.wooledge.org/​RegularExpression]]\\  +
-[[https://​en.wikipedia.org/​wiki/​Regular_expression#​Standards]]\\ +
  
-**Lorsque ​la chaîne ​correspond au motif, ​le code retour du test renvoie 0 pour vrai, sinon, il renvoie 1 pour faux.\\ ​ +Cet opérateur ''​=~''​ permet : 
-Si la syntaxe du pattern n'est pas valide le code de retour est 2.**\\ +  ​de vérifier ​la correspondre entre une chaîne ​(valeur d'une variable à gauche) et le modèle regex à droite ; 
 +  * ou encore de vérifier ​la correspondance entre une variable (constituée d'une chaîne ​de caractères littérales),​ et une variable constituée d'une regex.
  
-**Lorsqu'​une chaîne correspond, chacune des parties du motif sont disponibles dans la variable $BASH_REMATCH.**+<​note>​ 
 +À savoir :\\ 
 +Lorsque la chaîne correspond au motif, le code retour du test renvoie 0 pour vrai, sinon, il renvoie 1 pour faux.\\  
 +Si la syntaxe du pattern n'est pas valide le code de retour est 2.\\  
 + 
 +Lorsqu'​une chaîne correspond, chacune des parties du motif sont disponibles dans la variable ​''​$BASH_REMATCH''​. 
 +</​note>​ 
 +==== Tableau des caractères utilisés dans les expressions régulières étendues====
  
-====2) Liste des caractères utilisés dans les expressions régulières étendues==== 
 **Voici les caractères utilisables :** **Voici les caractères utilisables :**
 ^ "​signes"​ regex ERE basique ​ ^ signification (comparez avec le tableau de l'​index) ​            ^ ^ "​signes"​ regex ERE basique ​ ^ signification (comparez avec le tableau de l'​index) ​            ^
-<​code>​.</​code> ​| Correspond à tout caractère unique. ​Dans expressions POSIX entre crochets, le caractère point correspond à un point littéral ​+''​.'' ​| Correspond à tout caractère unique. ​ 
-<​code>​[ ]</​code> ​| Correspond à un seul caractère qui est contenue dans les parenthèses. On peut mélanger [abcx-z] correspond à "a""b""c""x""y" ​ou "z", de même que [a-cx-z]. Le caractère - est traité comme un caractère littéral si c'est le dernier ou le premier. ​ | +''​[ ]'' ​| Correspond à un seul caractère qui est contenue dans ''​[ ]''​. On peut mélanger [abcx-z] correspond à ''​a''​''​b''​''​c''​''​x''​''​y'' ​ou ''​z''​, de même que ''​[a-cx-z]''​. Le caractère ​''​-'' ​est traité comme un caractère littéral si c'est le dernier ou le premier. ​ | 
-<​code>​[^ ]</​code> ​| Correspond à un seul caractère qui n'est pas contenu dans les parenthèses. Par exemple, ​<​code>​[^ abc]</​code> ​correspond à tout caractère autre que "a""b" ​ou "c". | +''​[^ ]'' ​| Correspond à un caractère qui n'est pas contenu dans les parenthèses. Par exemple, ​''​[^abc]'' ​correspond à tout caractère autre que a, b ou c. | 
-<​code>​</​code> ​ | Correspond à la position de départ dans la chaîne. | +''​'' ​ | Correspond à la position de départ dans la chaîne. | 
-<​code>​$</​code> ​| Correspond à la position de fin de la chaîne ou la position juste avant un saut de ligne de chaîne interminable. ​  | +''​$'' ​| Correspond à la position de fin de la chaîne ou la position juste avant un saut de ligne de chaîne interminable. ​  | 
-<​code>​( )</​code> ​| Définit une sous-expression marquée. La chaîne correspondante entre parenthèses peut être rappelé plus tard (voir l'​entrée suivante, \ n). Une sous-expression marquée est aussi appelé un groupe de blocs ou de capturer. Mode BRE nécessite \ (\). | +''​( )'' ​| Définit une sous-expression marquée. La chaîne correspondante entre parenthèses peut être rappelé plus tard (voir l'​entrée suivante, ​''​\ n''​). Une sous-expression marquée est aussi appelé un groupe de blocs ou de capturer. Mode BRE nécessite \ (\). | 
-<​code>​\n</​code> ​| Correspond au nombre n de sous-chaîne,​ où n est un chiffre de 1 à 9.\\ Écriture équivalente à {n}  |   +''​\n'' ​| Correspond au nombre ​''​n'' ​de sous-chaîne,​ où ''​n'' ​est un chiffre de 1 à 9.\\ Écriture équivalente à ''​{n}'' ​ ​| ​  
-<​code>​*</​code> ​| Correspond à zéro ou plusieurs fois l'​élément précédent.\\ Par exemple, ​<​code>​ab * c</​code> ​correspond à "​ac",​ "​abc",​ "​abbbc»,​ etc. Ou encore, ​<​code>​[xyz] *</​code> ​correspond à " ", "x""y""z""zx""zyx""xyzzy ", et ainsi de suite. ​<​code>​(ab) *</​code> ​correspond à ""​"b""abab""ababab", et ainsi de suite. | +''​*'' ​| Correspond à zéro ou plusieurs fois l'​élément précédent.\\ Par exemple, ​''​ab* c'' ​correspond à "​ac",​ "​abc",​ "​abbbc»,​ etc. Ou encore, ​''​[xyz]*'' ​correspond à ''​x''​''​y''​''​z''​''​zx''​''​zyx''​''​xyzzy''​, et ainsi de suite. ​''​(ab)*'' ​correspond à ''​a''​''​b''​''​abab''​''​ababab''​, et ainsi de suite. | 
-<​code>​{m,n}</​code> ​Correspond ​au moins à m fois mais pas plus de n fois l'élément précédent.\\ Par exemple, ​<​code>​a{3,5}</​code> ​correspond uniquement ​"aaa", ou "aaaa", ou "aaaaa".  | +''​{m,n}'' ​l'​élément précédent correspond ​au moins à ''​m'' ​foismais pas plus de ''​n'' fois .\\ Par exemple, ​''​a{3,5}'' ​correspond uniquement ​''​aaa''​, ou ''​aaaa''​, ou ''​aaaaa''​.  | 
-<​code>​{ }</​code> ​| "​exactement trois fois" par exemple ​<​code>​a{3}</​code> ​correspond aaa seulement. (équivalent de  aaa d'expression) ​+''​{ }'' ​| "​exactement trois fois" par exemple ​''​a{3}'' ​correspond ​strictement à ''​aaa'' . 
-<​code>​{n,}</​code> ​| "​jusqu'​à trois fois". «trois fois ou plus». Par exemple, ​<​code>​a{3,}</​code> ​correspond aaa ou aaaa, etc. (équivalent de <​code>​a*</​code>​) | +''​{n,}'' ​| "​jusqu'​à trois fois". «trois fois ou plus». Par exemple, ​''​{3,}'' ​correspond aaa ou aaaa, etc. (équivalent de ''​a*''​) | 
-<​code>​{,n}</​code> ​<​code>​a{,3}</​code> ​"​jusqu'​à trois fois". Correspond à la chaîne vide ou a ou aa ou aaa (équivalent de <​code>​| ​a | aa | aaa</​code>​.| +''​{,n}'' ​''​a{,3}'' ​"​jusqu'​à trois fois". Correspond à la ''​chaîne vide'' ​ou ''​a'' ​ou ''​aa'' ​ou ''​aaa'' ​(équivalent de ''​a|aa|aaa''​.| 
-|POSIX extended | Bash avec correctif, sinon il faut \ devant parenthèse et crochet. ​<​code>​\( \)</​code> ​et <​code>​\{ \}</​code>​ FIXME |+|POSIX extended | Bash avec correctif, sinon il faut \ devant parenthèse et crochet. ​''​\( \)'' ​et ''​\{ \}'' ​|
 |autres caractères ​                 | signification ​   | |autres caractères ​                 | signification ​   |
-<​code>​?</​code> ​                   | Correspond zéro ou une fois à l'​élément précédent. Par exemple, ab? c correspond seulement ​"ac" ​ou "abc". | +''​?'' ​                   | Correspond zéro ou une fois à l'​élément précédent. Par exemple, ​''​ab?c'' ​correspond seulement ​''​ac'' ​ou ''​abc''​. | 
-<​code>​+</​code> ​                   | Correspond une ou plusieurs fois à l'​élément précédent. Par exemple, ab + c correspond à "abc""abbc""abbbc", et ainsi de suite, mais pas "​ac"​. | +''​+'' ​                   | Correspond une ou plusieurs fois à l'​élément précédent. Par exemple, ​''​ab+c'' ​correspond à ''​abc''​''​abbc''​''​abbbc''​, et ainsi de suite, mais pas "​ac"​. | 
-<​code>​|</​code> ​      | Correspond à l'​expression d'​avant ​OU l'​expression d'​après l'​opérateur. Par exemple, ​<​code>​abc|def</​code> ​correspond à "abc" ​ou "def". | +''​|'' ​      | Correspond à l'​expression d'​avant ​''​ou'' ​l'​expression d'​après l'​opérateur. Par exemple, ​''​abc|def'' ​correspond à ''​abc'' ​ou ''​def''​. | 
-| Et tous les caractères de class  posix  | voir leur signification ici [[http://​wiki.debian-facile.org/​doc:​programmation:​shell:​regexp#​les-ensembles-de-caracteres-possibles]] ​ | +| Et toutes ​[[doc:​programmation:​shell:​regexp#​les-ensembles-de-caracteres-possibles|les classes prédéfinies]] |''​[:alnum:] [:alpha:] [:blank:] [:cntrl:] [:digit:] [:graph:] [:lower:] [:print:] [:punct:] [:space:] [:upper:] [:xdigit:]'' ​   |
-| <​code>​[:alnum:] [:alpha:] [:blank:] [:cntrl:] [:digit:] [:graph:] [:lower:] [:print:] [:punct:] [:space:] [:upper:] [:xdigit:]</​code> ​   ||+
  
 +  * Référence (ce tableau résume le contenu de ces trois liens) : 
 +    * [[https://​en.wikipedia.org/​wiki/​Regular_expression#​Standards]]
 +    * [[https://​en.wikipedia.org/​wiki/​Regular_expression#​Standards#​Uses]]
 +    * [[https://​en.wikipedia.org/​wiki/​Regular_expression#​Standards#​Character%20classes]]
 +  * Autre référence :\\ [[http://​mywiki.wooledge.org/​RegularExpression]] \\ [[http://​en.wikibooks.org/​wiki/​Regular_Expressions/​Posix_Basic_Regular_Expressions|Regular Expressions/​POSIX]]
    
-====3) Apprenons à construire une expression régulière ​"​bashiste"​==== +==== Apprenons à construire une expression régulière==== ​
  
 <code bash> <code bash>
Ligne 185: Ligne 212:
 done done
 </​code>​ </​code>​
- 
-Retour 
 <​code>​ <​code>​
 1234567 ne correspond pas à 9 nombres 1234567 ne correspond pas à 9 nombres
Ligne 194: Ligne 219:
 </​code>​ </​code>​
  
- +  * Ou encore :
-Ou encore :+
  
 <code bash> <code bash>
Ligne 208: Ligne 232:
 echo "pas de match" echo "pas de match"
 fi fi
- 
-# retour : match  
 </​code>​ </​code>​
 +<​code>​ 
 +match  
 +</​code>​
  
 ===Compliquons un peu en utilisant plusieurs autres caractères du tableau ci-dessus :=== ===Compliquons un peu en utilisant plusieurs autres caractères du tableau ci-dessus :===
Ligne 228: Ligne 252:
 echo "​mauvaise regex" echo "​mauvaise regex"
 fi fi
- +</​code>​ 
-# retour : Le nom de l'​image correspond à l'​expression rationnelle.+<​code>​ 
 +Le nom de l'​image correspond à l'​expression rationnelle.
 </​code>​ </​code>​
  
-===explication=== +  ​Explication :
- +
-  ​début de l'​expression +
-<​code>​^</​code> ​+
  
-  * entre parenthèses,​ première sous-expression,​ avec une paire de crochets contenant deux autres paires de crochets apha et blank, avec * pour signifier que le groupe (alpha, blank) doivent apparaître 0 ou plusieurs fois ; suivi d'un espace. +> ''​ ^ ''​ : début ​de l'expression
-<​code>​([[:​alpha:​][:​blank:​]]*)</​code> ​+
  
-  * un tiret avec un espace après comme dans l'expression littérale. +> ''<nowiki>([[:​alpha:​][:​blank:​]]*)</nowiki>''​ :  
-<code></code>+>entre parenthèses:​ première sous-expression,​  
 +>avec une paire de crochets contenant deux autres paires de crochets ''​[:​apha:​]''​ et ''​[:​blank:​]'',​  
 +>avec ''​*''​ pour signifier que le groupe [alpha et blank] doivent apparaître 0 ou plusieurs fois ; suivi d'un espace.
  
-  * une sous expression faite d'un groupe composé d'un nombre quelconque d'alphanumérique, ​un espace, un tiret, une autre sous-expression ​qui apparaît 0 ou 1 fois (?). +'' ​- '' ​: un tiret avec un espace ​après comme dans l'expression ​littérale.
-<​code>​([[:​digit:​]]*) - ([[:​alpha:​]]?​)</​code>​+
  
-  * La sous-expression (.*) signifie n'importe quel nombre ​(*) de tout caractères ​(.), puis littéralement jpgpuis $ qui signifie fin de l'expression+''<​nowiki>​([[:digit:]]*) ([[:​alpha:​]]?​)</​nowiki>''​ : une sous expression faite d'un groupe composé d'un nombre quelconque d'​alphanumériqueun espaceun tiret, une autre sous-expression ​qui apparaît 0 ou 1 fois (''?''​).
-(.*)jpg$+
  
 +> La sous-expression ''​(.*)''​ signifie n'​importe quel nombre ( ''​*''​ ) de tout caractères (''​.''​), ​
 +>puis littéralement ''​jpg'', ​
 +>puis ''​$''​ qui signifie fin de l'​expression.
  
 +>Le tout entre ''​ " " ''​ et sans espace autour du égal qui affecte la variable "​regex"​ par la //​ERE//​((expression rationnelle étendue)).
  
-Et voilà comment avec le shell bash, on peut dresser une expression rationnelle fonctionnant dans les tests !   :-P+Et voilà comment avec le shell bash, on peut dresser une expression rationnelle ​étendue ​fonctionnant dans les tests !   :-P
  
 <​note>​ <​note>​
-**DONC**\\ +Pour résumer :\\ 
  
-**LES EXPRESSIONS RÉGULIÈRES UTILISÉES AVEC LE SHELL BASH NÉCESSITENT L'OPÉRATEUR ​=~**\\+  ​Les //​expressions régulières//​ utilisées avec le shell Bash nécessitent l'​opérateur ''=~''​ 
 +  ​On y retrouve ceux des caractères génériques (globs) basiques ''​*'',​ ''​[ ]'',​ ''?''​.\\ (avec sens voisin mais étendus par une syntaxe particulière).  
 +  * On y retrouve ceux des caractères génériques étendus ''​|'',​ ''​@'',​ ''​!'',​ ''​+'',​ ''​^''​\\  (là aussi avec une nouvelle syntaxe). ​
  
-**ON Y RETROUVE CEUX DES CARACTÈRES GÉNERIQUES (globs) BASIQUES [ * [ ] ? ] (avec sens voisin mais étendus par une syntaxe particulière).**\\  +  * Les nouveaux caractères sont ''​{ ​, }''​ , ''​( )''​ , ''​\n'', ​ainsi que l'​enchâssement de crochets simples ​''​[ ]''​.  
- +  Elles ne s'utilisent pas avec la syntaxe de correspondance ou de substitution de type ''​<nowiki>​$var/​.../​...</​nowiki>'' ​ou ''<​nowiki>​$var//​.../​...</​nowiki>''​ 
-**ON Y RETROUVENT CEUX DES CARACTÈTRES GÉNÉRIQUES ÉTENDUS [ | @ ! +  ^]  (là aussi avec une nouvelle syntaxe).**\\  +  Ce sont les ER d'autres programmes qui recourent à une syntaxe ressemblante\\ ​(voir index correspondance et substitution). ​ 
- +  ​Beaucoup de ces métacaractères sont identiques à ceux des expressions régulières d'​autres programmes\\ (comparez avec l'​index).
-**LES NOUVEAUX CARACTÈRES SONT [   **,** dans {  **( )** **\n**  ​ainsi que l'​enchâssement de crochets simples.**\\  +
-**ELLES NE S'UTILISENT PAS AVEC LA SYNTAXE DE CORRESPONDANCE OU DE SUBSTITUTION DE TYPE :**  +
-<code +
-$var/​.../​... +
-ou +
-$var//​.../​... +
-</code+
-**CE SONT LES ER D'AUTRES PROGRAMMES QUI RECOURENT À UNE SYNTAXE RESSEMBLANTE ​(voir index correspondance et substitution).**\\  +
- +
-**BEAUCOUP DE CES MÉTA-CARATÈRES SONT IDENTIQUES À CEUX DES ER D'​AUTRES PROGRAMMES ​(comparez avec l'​index)**.+
 </​note>​ </​note>​
  
-====4) Utilisation de la variable $BASH_REMATCH====+====Un script pour s'​exercer au "​ER"​==== 
 +  * Voici un script "​exp.reg1" ​
  
-FIXME +<code bash> 
-=====INDEX ===== +#!/bin/bash 
-====1) rappel des principaux caractères des expressions rationnelles ====  +#Les "​echo"​ les plus à droite sont là pour expliquer lors du retour ce qui s'y passe dans ce script.
-Avec grep, sed, awk, perl\\ ​+
  
-Pour une initiation aux expressions régulières ou rationnellesvoir :\\  +VAR="​$1"​ 
-http://www.unixmail.fr/une-initiation-aux-expressions-rationnelles/​\\ ​ +     echo "La valeur de VAR est: $VAR."​ 
-http://http://culot.org/public/Docs/​regexp.html\\ ​+     echo "Il y a "​$#"​ paramètres."​ 
 +     echo "Le paramètre n°1 est "​$1"​ (la '​ER'​)."​ 
 +     echo "Le paramètre n°2 est "​$2"​ (deuxième argumentchaine1 à matcher)."​ 
 +     echo "Le paramètre n°2 est "​$3"​ (le troisième argument, chaine2 à matcher."​ 
 +     echo " " 
 +shift 
 +     echo "Avec '​shift',​ on se décale d'un paramètre."​  
 +     echo "​Après '​shift',​ il reste donc"​$#"​ paramètre(s)." ​ 
 +     echo "Et ce(s) paramètre(s) sont"​$1",​ "​$2"​."  
 +     echo "​("​$1":​ ancien deuxième paramètre devenu paramètre 1 après shift).
 +     echo "​("​$2":​ ancien troisième paramètre devenu paramètre 2 après shift.)"​ 
 +     echo " " 
 +     echo "MAIS LA VALEUR DE VAR RESTE la '​ER'​ : "​$VAR"​."​ 
 +for i in "​$@"​ 
 +do 
 +     echo " " 
 +     echo "'​for i in \$@': la variable i aura, boucle après boucle, les VALEURS: "​$@","​ 
 +     echo "​(attribués à chaque tour de boucle à variable "​i"​.)"​ 
 +     echo "​c'​est-à-dire lors de la boucle n°1, elle est identique au paramètre n°1: "​$1"​."​ 
 +     echo "puis lors de la boule n°2, elle est identique au paramètre n°2 "​$2"​."​ 
 +     echo " " 
 +     echo "On peut donc donner à grep la chaine:$i comme entrée par le tube,"  
 +     echo "et comme motif le '​ER':​ $VAR."  
 + echo "​$i"​ | grep -E "​$VAR"​ > /dev/null 
 +  if [ $? -eq 0 ] 
 +  then  
 +    echo " " 
 +    echo " BRAVO ! La ER: $VAR  correspond au motif "​$i"​ " 
 +  else 
 +    echo " " 
 +    echo " ERREUR ! La ER: $VAR ne correspond pas au motif: $i " 
 +    echo " " 
 +  fi 
 +done
  
-Un petit rappel non exhaustif des caractères spéciaux relatifs aux expressions rationnelles ​:+# ligne 33 (if) $? (code de retour) -eq (égal à) zéro (pas d'​erreur de sortie, donc bonne correspondance) 
 +</​code>​ 
 +  * Lancez-le comme ci-dessous, explications détaillées dans le retour :\\ 
  
-<​code>​ +<​code ​user
-Syntaxe correspondance ​             :      m/​motif/ ​  ​ou ​  /​motif+./exp.reg1 "​^[a-b]"​ "​abc"​ "​ABC" ​ 
-Syntaxe substitution ​               :      s/​motif/​chaîne+</code> 
-Lier une variable ​à une regex       : ​     =~  +>La ER comme premier argument de "​exp.reg1",​ puis le ou les chaînes ​à vérifier en second, troisième, etc. argument de "​exp.reg1"​.
-                                        $v =~ m/toto/ +
-                                        $v =~ s/​toto/​titi/​ +
-Les caractères spéciaux ​            : ​ \    | ( ) [ ] { } ^ $ * + ? .+
  
-pour représenter saut de ligne      ​ \n +Et voilà ​:-)
-pour représenter retour chariot ​    : ​ \r +
-pour représenter tabulation ​        : ​ \t +
-pour représenter saut de page       : ​ \f +
-pour représenter échappement ​       :  \e+
  
-Le point                            : n'​importe quel caractère+**Un grand merci à captnfab pour conseils avisés et toutes ses corrections.**  
 +=====INDEX 1===== 
 +====Caractères utilisables pour les expressions régulières avec sed====
  
-La paire de crochet ​                : [ ] matche l'un des caractères entre crochet 
  
-Intervalle ​                         : [a-z] l'une des lettres minuscules de l'​alphabet +=====INDEX 2===== 
-                                    : [A-Z] l'​une ​des lettres majusculs de l'​alphabet +==== Rappel ​des principaux caractères des expressions rationnelles ====  
-                                    : [0-9] un des caractères ​numériques +Un petit rappel non exhaustif ​des caractères ​spéciaux relatifs aux expressions rationnelles utilisable avec PerlPHPJavaScript, MySQL.\\ 
-                             Tout intervalle est envisageable, +
-                             par exemple u-w ou toute autre combinaison tant que  +
-                             le numéro ASCII du premier caractère est inférieur à celui du second. +
-                              +
-                             Un intervalle peut prendre place au milieu d'un motif quelconque. +
-                              +
-                             Pour rechercher un - littéralle mettre en dernier dans un intervalle. +
-                              +
-Raccourcis pour des ensembles courants :  +
-     ​(motifs abrégés) ​                 : \d qui correspond à [0-9]                        +
-                                       : \D qui correspond à [cfl0-9] ​                     +
-                                       : \w qui correspond à [a-zA-Z0-9_] ​                 +
-                                       : \W qui correspond à [cfla-zA-Z0-9_] ​              +
-                                       : \t qui correspond à une tabulation ​               +
-                                       : \n qui correspond à un saut de ligne              +
-                                       : \n qui correspond à un saut de ligne             +
-                                       : \r qui correspond à un retour chariot ​            +
-                                       : \s qui correspond à un espace blanc               +
-                                       : ​\S qui correspond à N’EST PAS un espace blanc+
  
-Quantificateurs ​                       ​ +^ ^ ^ 
-  ​0 fois ou plus                      ​:  ​* +|Correspondance : | ''​m/​motif/''​\\ ''/​motif/''​ | 
-  1 fois ou plus                      : ​ + +|Substitution :   | ''​s/​motif/​chaîne/'' ​       | 
-  ​0 ou 1 fois                         :  ? +|Correspondance entre regex et variable : | ''​ =~ ''​\\ $v =~ m/toto/\\ $v =~ s/​toto/​titi/​ | 
-  ​n fois exactement ​                  : {n} +|Les caractères spéciaux : | ''​\''​ ''​|''​ ''​( )''​ ''​[ ]''​ ''​{ }''​ ''​^''​ ''​$''​ ''​*''​ ''​+''​ ''?''​ ''​.''​ | 
- +|Pour représenter saut de ligne :  | ''​\n''​ | 
-Mémorisation ​                         : ( )  ( ) +|Pour représenter retour chariot : | ''​\r''​ | 
-                                         ^    ^ +|Pour représenter tabulation :    | ''​\t''​ | 
-                                      : $1    $2 +|Pour représenter saut de page :  ​| ''​ \f''​| 
-                                         +|Pour représenter échappement :   | ''​\e''​ | 
-                                      ​: prenom.nom@domaine.ext +|Le point représente n'​importe quel caractère. ​  | ''​.'' ​ 
-                                      ​: /​\b(\w+)\.(\w+)@\w+\.w{2,​4}\b/​ +|La paire de crochet "​matche"​ l'un des caractères entre crochet | ''​[ ]'' ​ | 
-                                      : ​    ​$1 ​     $2 +|Intervalle :\\ ''​ ''​\\ Tout intervalle est envisageable,​\\ par exemple ''​u-w''​ ou toute autre combinaison tant que\\ le numéro ''​ASCII''​ du premier caractère est inférieur à celui du second.\\ Un intervalle peut prendre place au milieu d'un motif quelconque.\\ Pour rechercher un ''​-''​ littéral, le mettre en dernier dans un intervalle. ​                      | \\ ''​ ''​\\ ''​ ''​\\ ''​[a-z]''​ (l'une des lettres minuscules de l'​alphabet)\\ ''​[A-Z]''​ (l'une des lettres majuscules de l'​alphabet)\\ ''​[0-9]''​ (un des caractères numériques) | 
- +|Raccourcis pour des ensembles courants\\ | ''​\d''​ qui correspond à ''​[0-9]''​\\ ''​\D''​ qui correspond à ''​[cfl0-9]''​\\ ''​\w''​ qui correspond à ''​[a-zA-Z0-9_]''​\\ ''​\W''​ qui correspond à ''​[cfla-zA-Z0-9_]''​\\ ''​\t''​ qui correspond à une tabulation\\ ''​\n''​ qui correspond à un saut de ligne\\ ''​\n''​ qui correspond à un saut de ligne\\ ''​\r''​ qui correspond à un retour chariot\\ ''​\s''​ qui correspond à un espace blanc\\ ''​\S''​ qui correspond à n'est pas un espace blanc | 
-Substitution de variables ​            ​: $s = "​toto";​ +|Quantificateurs :\\ ''​ ''​\\ 0 fois ou plus\\ ​1 fois ou plus\\ 0 ou 1 fois\\ n fois exactement ​| ''​ ''​\\ ''​ ''​\\ ''​*''​\\ ''​+''​\\ ''?''​\\ ''​{n}''​ | 
-                                      : if( $v =~ m/$s/ ) { ... } +|Mémorisation : \\ de variables $1 $2 ...| ''​( )'' ​ ''​( )''​ ... | 
-                                       +|Exemple:\\ ''​ ''​\\ ''​prenom.nom@domaine.ext''​\\ (\w+) $1\\ (\w+) : $2 | \\ ''​ ''​\\ ''​/​\b(\w+)\.(\w+)@\w+\.w{2,​4}\b/​''​ | 
-Options ​                              ​: i  Rend le motif insensible à la case (minuscules/​majuscules) +|Substitution de variables : | ''​$s = "​toto";​''​\\ ''​if( $v =~ m/$s/ ) { ... }''​ | 
-                                             l'​expression régulière m/​toto/​i ​  +|Options : | ''​i''​ : Rend le motif insensible à la case (minuscules/​majuscules)\\ ''​ '' ​l'​expression régulière ​''​m/toto/i''​\\ ''​g''​ : Permet d'​effectuer toutes les substitutions,​\\ ''​ ''​ et pas que la première.\\ ''​e''​ : Évalue le membre de droite comme une expression Perl.\\ ''​o''​ : La compilation a lieu une seule fois lors de la première exécution. ​|
-                                      :  Permet d'​effectuer toutes les substitutions, ​ +
-                                             pas que la première. +
-                                      :  Évalue le membre de droite comme une expression +
-                                             Perl. +
-                                      :  La compilation a lieu une seule fois lors de la première +
-                                             exécution. ​                        +
-</​code>​+
  
-====2) ASCII====+  * Référence :\\ [[http://​oreilly.com/​php/​excerpts/​php-mysql-javascript/​regex-in-php-javascript.html]] 
 +  * Apprendre à utiliser les expressions régulières sous perl :\\ [[http://​perldoc.perl.org/​perlrequick.html]]\\ [[http://​perldoc.perl.org/​perlre.html]] 
 +=====INDEX 3 ===== 
 +Voici l'​ordre des caractères ASCII :
  
 ^ ordre  ^ caractère ^ ordre   ^ caractère ^ ordre    ^ caractère ^ ordre ^ caractère ^     ordre ^ caractère ^ ordre ^ caractère ^ ^ ordre  ^ caractère ^ ordre   ^ caractère ^ ordre    ^ caractère ^ ordre ^ caractère ^     ordre ^ caractère ^ ordre ^ caractère ^
Ligne 368: Ligne 391:
 |8  | BS   | 29 | GS   | 50  | 2 | 71 | G | 92                   | \ | 113 | q   | |8  | BS   | 29 | GS   | 50  | 2 | 71 | G | 92                   | \ | 113 | q   |
 |9  | HT   | 30 | RS   | 51  | 3 | 72 | H | 93                   | ] | 114 | r   | |9  | HT   | 30 | RS   | 51  | 3 | 72 | H | 93                   | ] | 114 | r   |
-|10 | LF   | 31 | US   | 52  | 4 | 73 | I | 94  | <​code>​^</​code> ​    | 115 | s   | +|10 | LF   | 31 | US   | 52  | 4 | 73 | I | 94  | ''​^'' ​    | 115 | s   | 
-|11 | VT   | 32 |space | 53  | 5 | 74 | J | 95  |      -             | 116 | t   |+|11 | VT   | 32 |space | 53  | 5 | 74 | J | 95  | -             | 116 | t   |
 |12 | FF   | 33 | !    | 54  | 6 | 75 | K | 96  | ' ​                 | 117 | u   | |12 | FF   | 33 | !    | 54  | 6 | 75 | K | 96  | ' ​                 | 117 | u   |
 |13 | CR   | 34 | " ​   | 55  | 7 | 76 | L | 97  | a                  | 118 | v   | |13 | CR   | 34 | " ​   | 55  | 7 | 76 | L | 97  | a                  | 118 | v   |
Ligne 377: Ligne 400:
 |17 | DC1  | 38 | &    | 59  | ; | 80 | P | 101 | e                  | 122 | z   | |17 | DC1  | 38 | &    | 59  | ; | 80 | P | 101 | e                  | 122 | z   |
 |18 | DC2  | 39 | ' ​   | 60  | < | 81 | Q | 102 | f                  | 123 | {   | |18 | DC2  | 39 | ' ​   | 60  | < | 81 | Q | 102 | f                  | 123 | {   |
-|19 | DC3  | 40 | (    | 61  | = | 82 | R | 103 | g                  | 124 |<​code>​|</​code> ​  |+|19 | DC3  | 40 | (    | 61  | = | 82 | R | 103 | g                  | 124 |''​|'' ​  |
 |20 | DC4  | 41 | )    | 62  | > | 83 | S | 104 | h                  | 125 | }   | |20 | DC4  | 41 | )    | 62  | > | 83 | S | 104 | h                  | 125 | }   |
  
doc/programmation/shells/bash-vii-globs-etendus-regex.txt · Dernière modification: 22/10/2015 18:31 par milou

Pied de page des forums

Propulsé par FluxBB