L'icône rouge permet de télécharger chaque page du wiki visitée au format PDF et la grise au format ODT →

Ceci est une ancienne révision du document !

Sed et les expressions rationnelles

Objet : Apprendre à utiliser les expressions rationnelles spécifiques à sed.

Niveau requis :
avisé
Commentaires : Tuto en cours de rédaction

La substitution

Syntaxes de substitution

s/modèle/remplacement/[drapeau] fichier

cmd | s/modèle/remplacement/[drapeau]

Voir : la-fonction-de-substitution-s

Détail

s/motif/substitut/   
	-> si motif = une regexp
	-> alors subtitut = une chaîne de caractère

Pour REGEXP, on peut utiliser la syntaxe habituelle, ou la syntaxe étendue avec l'option -r.

L'adressage

Préparation

echo "aaaa BBB cCcC # 12345" > ~/sed1.txt

sed -i 's+ +\n+g' ~/sed1.txt && cat sed1.txt

aaaa
BBB
cCcC
#
12345

Tout cela revient au même

echo "aaaa BBB cCcC # 12345" | sed 's+ +\n+g'

echo "aaaa BBB cCcC # 12345" | sed 's/ /\n/g'

echo "aaaa BBB cCcC # 12345" | sed 's_ _\n_g'

Adressage avec numéro de lignes

Exemple avec la commande de suppression d

sed '3,4 d' ~/sed1.txt

aaaa
BBB
12345

pas d'option : rien n'est modifié
d : commande de suppression
3,4 : ligne 3 et 4

option -e et répétition le commande d :

sed -e '3d; 4d' ~/sed1.txt

aaaa
BBB
12345

Adressage avec n° d'occurrence (fonctionne sur une ligne)

echo "lalalala" | sed -e 's/la/li/2'

lalilala

Adressage du n° de ligne pour la substitution

Idem que précédemment, on place le n° devant la commande !
Mais attention ici il s'agit de la substitution s :

sed -r '6s/BBB/toto/' sed1.txt

aaaa
BBB
cCcC
#
12345
toto
titi cCcC
/coucou/titi

Adressage avec délimiteurs "/ /" :

soit le fichier sed2.txt

aaaa
BBB titi
cCcC
#
12345
BBB
titi cCcC
titi BBB
/coucou/titi

sed '/^B/d' ~/sed2.txt

Dans le délimiteur, on place la chaîne de caractères ou la regexp qui indique à sed où doit être fait l'action de la commande.

aaaa
cCcC
#
12345
titi cCcC
titi BBB

Adressage d'une plage avec délimiteurs "/ /,/ /" :

sed '/^B/,/^1/d' ~/sed1.txt

aaaa

Adressage mixte

n et m sont des nombres entiers naturels

sed 'n,ms/chaine 1/chaine 2/' fichier

On remplace chaine 1 par chaine 2 de la ligne n à la ligne m.

sed '/chaine 1/s/chaine 2/chaine 3/' fichier

On remplace chaine 2 par chaine 3 pour la ou les ligne(s) adressées par chaine 1.

cat sed1.txt
aaaa
BBB
cCcC
#
12345
BBB
titi cCcC

sed '2,6s/BBB/GAGA/' sed1.txt

sed -r '2,6s/B{3}/GAGA/' sed1.txt

aaaa
GAGA
cCcC
#
12345
GAGA
titi cCcC

sed '/BBB/s/BBB/GAGA/' sed1.txt

sed -r '/B{3}/s/BBB/GAGA/' sed1.txt

aaaa
GAGA
cCcC
#
12345
GAGA
titi cCcC

Adressage avec le tilde

man sed

first~step
 Match every step' th line starting with line first.

Remplaçons “first” et step“ par “n” et “m” qui sont toujours des nombres !

L'expression n ~ m ou n~m signifie simplement :

” la E.R matche toutes les nième ligne(s) d'un fichier et cela en sautant un nombre de ligne égal à un écart (~) qui est lui-même égal, à la différence entre le nombre m avec la première ligne du fichier (c'est-à-dire la position ordinal 1). On connaît donc le nombre de ligne sautée en faisant toujours m - 1.“

Et si n est égal à zéro, alors le E.R. match toutes les mièmes lignes à partir de la ligne m et saute m - 1 ligne(s).

1 ~ 2 : matche les lignes impaires : 1ière, 3ième, 5ième, etc.
En effet, de la première ligne du fichier à m (m = 2), il y a 1. Il sera sauté 1 ligne non-matchée et cela à partir de la ligne n°1 (n = 1). Donc la sélection concerne la première ligne et saute 1 ligne, matche la 3ième ligne et saute 1 ligne, etc.
2~3 : matche les lignes 2 ; 5 ; 8 ; 11
L'écart sauté sera de 2 car de la position 3 (m = 3) à la première ligne du fichier, il y a deux lignes (3-1=2), et cela commence à la deuxième ligne (n = 2). Donc la deuxième ligne est matchée, deux lignes sont sautées (3ième et 4 ième), la 5 ième est matchée, etc.
10 ~ 5 : sélection des lignes 10 ; 15 ; 20 ; 25 etc. 5 - 1 = 4 : Il sera sauté 4 lignes non-matchées à partir de la ligne 10.

0~5 : sélection des lignes 5 ; 10 ; 15 etc.
m-1 = 5-1 = 4 lignes sautées, à partir de la cinquième ligne (m = 5 ).

Exemple 1:

sed '1~2 s_.*[coucou]_OK_' essai-tilde

OK/1
/titi/coucou/2
OK/3
/tutu/coucou/4
OK/5
/nono/coucou/6
OK/7
/lili/coucou/8
OK/9
/fofo/coucou/10
OK/11
/bibi/coucou/12
OK/13
/sisi/coucou/14
OK/15

Exemple 2 :

sed '2~3 s_.*[coucou]_OK_' essai-tilde

/toto/coucou/1
OK/2
/tati/coucou/3
/tutu/coucou/4
OK/5
/nono/coucou/6
/lulu/coucou/7
OK/8
/fifi/coucou/9
/fofo/coucou/10
OK/11
/bibi/coucou/12
/zaza/coucou/13
OK/14
/baba/coucou/15

Exemple 3 :

sed '10~5 s_.*[coucou]_OK_' essai-tilde

/toto/coucou/1
/titi/coucou/2
/tati/coucou/3
/tutu/coucou/4
/nani/coucou/5
/nono/coucou/6
/lulu/coucou/7
/lili/coucou/8
/fifi/coucou/9
OK/10
/dodu/coucou/11
/bibi/coucou/12
/zaza/coucou/13
/sisi/coucou/14
OK/15

exemple :

sed '0~5 s_.*[coucou]_OK_' essai-tilde

/toto/coucou/1
/titi/coucou/2
/tati/coucou/3
/tutu/coucou/4
OK/5
/nono/coucou/6
/lulu/coucou/7
/lili/coucou/8
/fifi/coucou/9
OK/10
/dodu/coucou/11
/bibi/coucou/12
/zaza/coucou/13
/sisi/coucou/14
OK/15

Sed et les regexp simples

Explications

le caractère ^

Le caractère ^ n'est spécial qu'en début d'E.R. ou immédiatement à gauche dans une chaîne encadrée par des '[]' (voir : “les crochets”).

Exemple 1 : supprimer la ligne comprenant le caractère ”#“, du fichier :

cat >> ~/sed.txt <<EOF
> abc
> #ABC
> EOF

sed '/^#/ d' sed.txt

abc

Exemple 2 : supprimer le caractère # seulement du fichier sed.txt

sed -e '/^#/s/#ABC/ABC/' sed.txt
</code
<code>
abc
ABC

Exemple 3 : ne pas supprimer le ligne qui commence par #

sed '/^#/ !d' ~/sed.txt

Le caractère $

Le caractère $ représente la fin de la ligne. (Le caractères $ n'est spécial qu'en fin d'E.R ou d'un ensemble d'E.R.)

Exemple : supprimer la ligne finissant par “C”

sed -e 's/.*C$//' -e '/^$/ d' sed.txt

abc

le point (.)

Un point . est une E.R. d'un seul caractère qui correspond à n'importe quel caractère sauf le saut de ligne.

Exemple 1 :

echo "a B 2 ! * & : ?" | sed 's/./Gaga/g'

GagaGagaGagaGagaGagaGagaGagaGagaGagaGagaGagaGagaGagaGagaGaga

Exemple 2, point<espace> :

echo "C " | sed 's/. /Coucou/'

Coucou

L'étoile (*)

Une E.R. d'un seul caractère suivie d'un * est une E.R. qui recherche zéro occurrence ou plusieurs de ce caractère.
c*123 → 123 ou c123 ou cc123 ou ccc123, etc.

S'il y a plusieurs choix, alors la chaîne de gauche la plus longue est choisie.
La E.R .* représente zéro ou plusieurs occurrences de n'importe quel caractère.

Les crochets

La chaîne non-vide encadrée par [ ] est considérée comme une E.R. d'un seul caractère pouvant avoir n'importe quelle valeur définie entre ces [].

À l'inverse, la E.R représentée par [^…] est une chaîne composée de tous caractères à l'exclusion de ceux encadrés.
( le caractère ^ ne spécifie cette fonctionnalité d'exclusion que s'il se trouve en première position, immédiatement après le [ )

Une combinaison de plusieurs E.R. d'un seul caractère est une E.R. qui correspond à l'ensemble de ce que chaque E.R. désigne.
Par exemple a[bB] recherche ab ou aB.

Les caractères . , * , [ et \ sont toujours spéciaux sauf s'ils sont encadrés entre [].

[A-Za-z-] → Tout caractère alpha ou le -.
[]a-z] → Tout caractère alpha ou le ].

Le caractère &

sed 's/[0-9][0-9]*$/[&]/' sed1.txt

aaaa
BBB
cCcC
#
[12345]
BBB
titi cCcC

sed 's/[0-9][0-9]*$/(&)/' sed1.txt

aaaa
BBB
cCcC
#
(12345)
BBB
titi cCcC

Sed -r : les caractères étendues

Rappel :

+ ; ? ; | ; ( ) ; [ ; { }

le caractère (+)

substituer une ou plusieurs fois “z” par OK

echo "abc azbc azzbc azzzbc azzzzbc" | sed -r 's/az+bc/OK/g'
abc OK OK OK OK

Le caractère ( ? )

substituer zéro ou une fois “z” par OK

echo "abc azbc azzbc azzzbc azzzzbc" | sed -r 's/az?bc/OK/g'
OK OK azzbc azzzbc azzzzbc

Le ou ( | )

substituer ab ou cd par OK

echo "abef cdef efgh abcd" | sed -r 's/ab|cd/OK/g'
OKef OKef efgh OKOK

substituer ab ou cd par OK et effacer le reste

echo "lflfabef cdef efgh ftyabcdopm" | sed -r\
 's/^.*[ab|cd]*/OK/g'
OK

Les parenthèses

echo "a b c d e f" | sed -r 's/(b|e)/X/g'

a X c d X f

Parenthèses et inversion de champs

Avec la commande s (substitution), on peut de définir plusieurs E.R mises entre parenthèses.
Cela permet de faire une inversion en se servant du séparateur de chaque champ à matcher.

Exemple :

echo "coucou:toto" | sed -r 's/^(.*):(.*)/\2:\1/'

toto:coucou

/^$.*$\1$/ : correspond à une ligne contenant au moins deux fois la même sous-chaîne de caractères

Les accolades { et }

Un seul caractère suivie par {m}, {m,}, ou {m,n} est une E.R. qui correspond au caractère précédant { s'il est présent, exactement m fois (m); au moins m fois (m,); entre “m” et “n” fois (m,n).
'm' et 'n' doivent être des entiers positifs ou nuls inférieurs à 256.

substituer seulement “aaa, aaaa et aaaaa” par OK

echo "a aa aaa aaaa aaaaaa aaaaaaaa aaaaaaa" | sed -r\
 's/a{3,5}/OK/g'
a aa OK OK OKa OKOK OKaa

substituer trois “a” et plus par OK

echo "a aa aaa aaaa aaaaaa aaaaaaaa" | sed -r 's/a{3,}/OK/g'
a aa OK OK OK OK

Traitement des mots

le caractère \<

Le caractère \< oblige l'E.R. à correspondre avec le début d'un mot (mot = chaîne de caractères chiffres, lettres ou '_').
\< doit figurer devant la sous-chaîne désirée.

echo "info pour tous informatique" | sed -r 's/\<info/OK/g'

OK pour tous OKrmatique

le caractère \>

Le caractère \> oblige l'E.R. à correspondre à la fin d'un mot.
\> doit figurer en fin de la sous-chaîne désirée.

echo "métrique cosmétique" | sed -r 's/métique\>/OK/g'

métrique cosOK

Les sous-chaînes : associer ( ), [ ], { }

substituer “Hello” par OK

echo "coucou Hello Yep" | sed -r 's/[A-Z]{1}[a-z]{4}/OK/g'

coucou OK Yep

substituer “ABC-123 abc-123” par OK

echo "ABC-123 abc-123" | sed -r 's/[A-Z]{3}-[[:digit:]]{3}\
 [[a-z]{3}-[[:digit:]]{3}/OK/'
OK

SHELL : \

→ Les longues commandes peuvent être sectionnées avec :

\<retour à la ligne>[<espace>]

substituer “ab efab ef” par OK

echo "123ab efab ef123" | sed -r 's/(ab[[:blank:]]ef){2}/OK/'
123OK123

substituer “123ab efab ef123” par trois “OK”

echo "123ab efab ef123" | sed -r -e 's/(ab[[:blank:]]ef){2}/OK/g'\
 -e 's/[[:digit:]]{3}/OK/g'
OKOKOK

substituer jusqu'à trois “a” par OK

Attention !
La E.R {,m} n'est pas utilisée avec sed.
Les chaînes comportant plus de trois “a” contiennent aussi moins de trois “a” !

echo "a aa aaa aaaa aaaaaa aaaaaaaa" | sed -r 's/a{,3}/OK/g'
OK OK OK OKOK OKOK OKOKOK

echo "a aa aaa aaaa aaaaaa aaaaaaaa" | sed -r\
 's/(a{1}[[:blank:]]|a{2}[[:blank:]])/OK/g'
OKOKaOKaaOKaaaaOKaaaaaaaa

echo "a aa aaa aaaa aaaaaa aaaaaaaa" | sed -r\
 -e 's/(a{1}[[:blank:]])/OK/' -e 's/(a{2}[[:blank:]])/OK/' 
OKOKaaa aaaa aaaaaa aaaaaaaa

utilisateurs/hypathie/tutos/accueil.1405940900.txt.gz · Dernière modification: 21/07/2014 13:08 par Hypathie

Debian-facile

Table des matières