Mdadm : soucis au changement de disques durs

1Nao1 · 11-11-2021 20:11:48

Bonsoir à tous, je viens vers vous car j'ai un soucis que je ne comprends pas.
Il y a 10j je vais voir comment se porte ma grappe RAID6 et Ô malheur, elle ressemble à ça :

    /dev/md0:

    Version : 1.2

    Creation Time : Tue Aug 8 03:10:47 2017

    Raid Level : raid6

    Array Size : 13673673216 (13040.23 GiB 14001.84 GB)

    Used Dev Size : 1953381888 (1862.89 GiB 2000.26 GB)

    Raid Devices : 9

    Total Devices : 9

    Persistence : Superblock is persistent

    Update Time : Tue Aug  8 16:24:23 2017

          State : clean 

    Active Devices : 9

    Working Devices : 9

    Failed Devices : 0

    Spare Devices : 0

         Layout : left-symmetric

     Chunk Size : 512K

           Name : SERVERHOME:0  (local to host SERVERHOME)

           UUID : e76fe4d4:21ea2130:2e24ae3c:06285d3a

         Events : 160

    Number   Major   Minor   RaidDevice State

       0       8       65        0      active sync   /dev/sde1

       1       8       81        1      active sync   /dev/sdf1

       2       8       97        2      active sync   /dev/sdg1

       3       8      113        3      removed

       4       8      129        4      removed

       5       8      145        5      active sync   /dev/sdj1

       6       8      161        6      active sync   /dev/sdk1

       7       8      177        7      active sync   /dev/sdl1

       8       8      193        8      active sync   /dev/sdm1

Je veux retirer immédiatement les sdh et sdi mais pas possible de faire la commande

--manage --remove /dev/sdh1 /dev/sdi1

J'ai un message d'erreur qui me dit qu'ils sont "busy".
J'ouvre ma tour, je vire les deux disques en cause, je mets deux disques tous neufs.

Et je me lance dans la manipulation habituelle :

fdisk

, puis

mdadm --manage /dev/md0 --add /dev/sdh1 /dev/sdi1

Ils sont bien "added"

Et quand la reconstruction est terminée je regarde le détail de md0

    mdadm --detail /dev/md0

    /dev/md0:

    Version : 1.2

    Creation Time : Thu Aug 23 00:46:01 2018

    Raid Level : raid6

    Array Size : 13673673216 (13040.23 GiB 14001.84 GB)

    Used Dev Size : 1953381888 (1862.89 GiB 2000.26 GB)

    Raid Devices : 9

    Total Devices : 9

    Persistence : Superblock is persistent

    Update Time : Sun Nov  7 22:18:22 2021

          State : clean, FAILED

    Active Devices : 6

    Working Devices : 8

    Failed Devices : 1

    Spare Devices : 2

         Layout : left-symmetric

     Chunk Size : 512K

           Name : SERVERHOME:0  (local to host SERVERHOME)

           UUID : 2089ca77:2246a8cc:43cc7182:2dc105db

         Events : 1039125

    Number   Major   Minor   RaidDevice State

       0       8       81        0      active sync   /dev/sdf1

       1       8       97        1      active sync   /dev/sdg1

       2       0        0        2      removed

       3       0        0        3      removed

       9       8      145        4      active sync   /dev/sdj1

       5       8      161        5      active sync   /dev/sdk1

       6       0        0        6      removed

       7       8      193        7      active sync   /dev/sdm1

       8       8      209        8      active sync   /dev/sdn1

       6       8      177        -      faulty spare   /dev/sdl1

      10       8      113        -      spare   /dev/sdh1

      11       8      129        -      spare   /dev/sdi1

Au secours les amis, je suis perdu........

Merci beaucoup pour vos aides

raleur · 12-11-2021 11:53:11

1Nao1 a écrit :

Il y a 10j je vais voir comment se porte ma grappe RAID6 et Ô malheur, elle ressemble à ça

Elle ressemble à ça ou elle est exactement comme ça ?
Une date de mise à jour (update time) du même jour que la date de création (creation time) et un nombre d'événements (events) de seulement 160 ne me semblent pas cohérents avec un ensemble RAID qui fonctionne depuis plus de 4 ans.

1Nao1 a écrit :

Et quand la reconstruction est terminée je regarde le détail de md0

Ce n'est pas le même ensemble RAID : la date de création et l'UUID sont différents.

1Nao1 · 13-11-2021 09:32:15

raleur a écrit :

Elle ressemble à ça ou elle est exactement comme ça ?
Une date de mise à jour (update time) du même jour que la date de création (creation time) et un nombre d'événements (events) de seulement 160 ne me semblent pas cohérents avec un ensemble RAID qui fonctionne depuis plus de 4 ans.

Non elle ne fait que ressembler à ça car je n'ai pas pensé un faire une capture d'écran de

--detail /dev/md0

Il y avait ça, c'est sûr :

Number   Major   Minor   RaidDevice State

       0       8       65        0      active sync   /dev/sde1

       1       8       81        1      active sync   /dev/sdf1

       2       8       97        2      active sync   /dev/sdg1

       3       8      113        3      removed

       4       8      129        4      removed

       5       8      145        5      active sync   /dev/sdj1

       6       8      161        6      active sync   /dev/sdk1

       7       8      177        7      active sync   /dev/sdl1

       8       8      193        8      active sync   /dev/sdm1

raleur a écrit :

Ce n'est pas le même ensemble RAID : la date de création et l'UUID sont différents.

C'est dingue, je n'ai fait que --remove puis fdisk, les deux nouveaux disques ont pris les mêmes lettres (sdh et sdi) que les disques enlevés et enfin --add.

Puis-je "réintégrer" les disques qui en spare dans la grappe ou c'est mort et il faut que je recréée une nouvelle grappe???

P.S : en tous cas merci pour ton retour

raleur · 13-11-2021 10:21:57

1Nao1 a écrit :

Non elle ne fait que ressembler à ça car je n'ai pas pensé un faire une capture d'écran

Alors de quand date la sortie que tu as postée ?

1Nao1 a écrit :

Il y avait ça, c'est sûr

Avec exactement les mêmes numéros et noms dans le même ordre ?

1Nao1 a écrit :

C'est dingue, je n'ai fait que --remove puis fdisk, les deux nouveaux disques ont pris les mêmes lettres (sdh et sdi) que les disques enlevés et enfin --add.

En tout cas une chose est sûre : ce n'est pas ça qui a changé la date de création et l'UUID. Est-il possible que tu aies déjà complètement récréé cet ensemble RAID en 2018 ?
Le remplacement des disques a-t-il été fait à chaud (hotplug) ou y a-t-il eu arrêt et redémarrage de la machine ?

1Nao1 a écrit :

Puis-je "réintégrer" les disques qui en spare dans la grappe

Je ne pense pas car il n'y a pas assez de disques actifs pour que le RAID soit opérationnel.

1Nao1 · 13-11-2021 10:33:40

raleur a écrit :

Alors de quand date la sortie que tu as postée ?

Super vieille, j'avais sauvegardé un vieux --detail, j'ai juste modifié les deux de /dev/sdh1 et /dev/sdi1.

raleur a écrit :

Avec exactement les mêmes numéros et noms dans le même ordre ?

Pour ça, je suis sûr :
Number Major Minor RaidDevice State
0 8 65 0 active sync /dev/sde1
1 8 81 1 active sync /dev/sdf1
2 8 97 2 active sync /dev/sdg1
3 8 113 3 removed
4 8 129 4 removed
5 8 145 5 active sync /dev/sdj1
6 8 161 6 active sync /dev/sdk1
7 8 177 7 active sync /dev/sdl1
8 8 193 8 active sync /dev/sdm1

raleur a écrit :

En tout cas une chose est sûre : ce n'est pas ça qui a changé la date de création et l'UUID. Est-il possible que tu aies déjà complètement récréé cet ensemble RAID en 2018 ?
Le remplacement des disques a-t-il été fait à chaud (hotplug) ou y a-t-il eu arrêt et redémarrage de la machine ?

J'ai déjà eu un changement de disque à faire, surement en 2018 (je ne me souviens plus exactement). Le changement avait été fait par --remove, puis arrêt de la machine, changement des disques durs physiques, puis fdisk et enfin --add et reconstruction super longue vérifiée par "watch -n 1 cat /proc/mdstat" et pour finir "mdadm --detail --scan --verbose > /etc/mdadm/mdadm.conf"

raleur a écrit :

Je ne pense pas car il n'y a pas assez de disques actifs pour que le RAID soit opérationnel.

Dommage. Un truc à essayer quand même ? Quitte à tout perdre, au moins que je me batte.....

raleur · 13-11-2021 11:12:25

1Nao1 a écrit :

j'avais sauvegardé un vieux --detail, j'ai juste modifié les deux de /dev/sdh1 et /dev/sdi1.

Ça peut expliquer l'incohérence entre le nombre de active/working devices mentionné (9) et les disques présents (7).
Il ne faut pas mélanger les informations ni faire passer des informations obsolètes comme des informations récentes. Ça génère de la confusion et induit en erreur.

1Nao1 a écrit :

J'ai déjà eu un changement de disque à faire, surement en 2018 (je ne me souviens plus exactement). Le changement avait été fait par --remove, puis arrêt de la machine, changement des disques durs physiques, puis fdisk et enfin --add et reconstruction

Ce n'est pas ça non plus qui aurait pu changer l'UUID et la date de création.
Ce qui m'intéresse, ce n'est pas de savoir si la machine a été arrêté lors de la précédente reconstruction mais si la machine a été arrêtée entre le moment où mdadm --detail a affiché 2 disques "removed" et le moment où il a affiché 3 disques "removed", pour savoir si les disques ont pu changer de nom entre les deux.

1Nao1 a écrit :

et pour finir "mdadm --detail --scan --verbose > /etc/mdadm/mdadm.conf"

Ça, c'est une connerie.
D'une part ça écrase tout le contenu antérieur de mdadm.conf, y compris les paramètres de configuration généraux non spécifiques à l'ensemble RAID.
D'autre part, l'option --verbose fixe les noms des disques ou partitions qui peuvent être utilisés pour assembler la grappe. C'est normalement inutile car l'UUID est suffisant pour identifier les membres, et potentiellement risqué car les disques /dev/sd* peuvent changer de noms d'un démarrage à l'autre. Si lors d'un démarrage un membre prend un nom qui n'est pas dans la liste initiale, alors il ne sera pas utilisé et sera considéré comme manquant.

C'est cette potentielle instabilité des noms des disques /dev/sd* (liée au caractère aléatoire de l'ordre de détection) qui complique les choses : le nom ne suffit pas pour identifier un disque dans les comparaisons avant/après. Il aurait fallu relever la sortie de mdadm --examine pour chaque membre pour avoir des informations sur son UUID propre, son numéro de membre dans l'ensemble RAID et son numéro de rôle et son statut.

Une chose a tenter, ce serait de retirer les 2 spares qui ne servent actuellement à rien, rebrancher les deux anciens et récupérer les informations de mdadm --examine pour toutes les partitions RAID.

Dernière modification par raleur (13-11-2021 11:17:19)

1Nao1 · 14-11-2021 23:52:49

raleur a écrit :

1Nao1 a écrit :
j'avais sauvegardé un vieux --detail, j'ai juste modifié les deux de /dev/sdh1 et /dev/sdi1.

Ça peut expliquer l'incohérence entre le nombre de active/working devices mentionné (9) et les disques présents (7).
Il ne faut pas mélanger les informations ni faire passer des informations obsolètes comme des informations récentes. Ça génère de la confusion et induit en erreur.

Non, pardon, je me suis mal exprimé.
J'avais sauvegardé un vieux --detail en fichier .txt sur mon ordi pour garder une trace des commandes et de leurs réponses. J'avais utilisé ce vieux fichier .txt pour simplement imager ce que j'avais vu (en paniquant) avec les deux disques Removed. Je n'avais pas pensé à faire une capture d'écran à ce moment, je t'ai donc juste "modifié" le vieux fichier .txt pour te montrer le disques qui étaient devenus Removed.

raleur a écrit :

1Nao1 a écrit :
J'ai déjà eu un changement de disque à faire, surement en 2018 (je ne me souviens plus exactement). Le changement avait été fait par --remove, puis arrêt de la machine, changement des disques durs physiques, puis fdisk et enfin --add et reconstruction

Ce n'est pas ça non plus qui aurait pu changer l'UUID et la date de création.
Ce qui m'intéresse, ce n'est pas de savoir si la machine a été arrêté lors de la précédente reconstruction mais si la machine a été arrêtée entre le moment où mdadm --detail a affiché 2 disques "removed" et le moment où il a affiché 3 disques "removed", pour savoir si les disques ont pu changer de nom entre les deux.

Oui. Quand j'ai vu le --detail avec deux Removed, j'ai acheté deux nouveaux disques. J'ai arrêté ma tour, je l'ai ouverte et j'ai enlevé les deux disques et remplacé par les deux nouveaux. Ensuite j'ai créé des partitions pour chaque nouveau disque. Et une fois les -- add fait et la reconstruction faite, j'ai découvert un --detail avec trois Removed.

raleur a écrit :

1Nao1 a écrit :
et pour finir "mdadm --detail --scan --verbose > /etc/mdadm/mdadm.conf"

Ça, c'est une connerie.
D'une part ça écrase tout le contenu antérieur de mdadm.conf, y compris les paramètres de configuration généraux non spécifiques à l'ensemble RAID.
D'autre part, l'option --verbose fixe les noms des disques ou partitions qui peuvent être utilisés pour assembler la grappe. C'est normalement inutile car l'UUID est suffisant pour identifier les membres, et potentiellement risqué car les disques /dev/sd* peuvent changer de noms d'un démarrage à l'autre. Si lors d'un démarrage un membre prend un nom qui n'est pas dans la liste initiale, alors il ne sera pas utilisé et sera considéré comme manquant.

C'est cette potentielle instabilité des noms des disques /dev/sd* (liée au caractère aléatoire de l'ordre de détection) qui complique les choses : le nom ne suffit pas pour identifier un disque dans les comparaisons avant/après. Il aurait fallu relever la sortie de mdadm --examine pour chaque membre pour avoir des informations sur son UUID propre, son numéro de membre dans l'ensemble RAID et son numéro de rôle et son statut.

Une chose a tenter, ce serait de retirer les 2 spares qui ne servent actuellement à rien, rebrancher les deux anciens et récupérer les informations de mdadm --examine pour toutes les partitions RAID.

Je me suis "amusé" à faire --examine maintenant :

 mdadm --examine /dev/sdb1

/dev/sdb1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 25576a1e:8b29c612:363ad2d1:7ad82d92

           Name : SERVERHOME:1  (local to host SERVERHOME)

  Creation Time : Wed Oct 23 02:05:24 2013

     Raid Level : raid1

   Raid Devices : 2

 Avail Dev Size : 1953260976 (931.39 GiB 1000.07 GB)

     Array Size : 976630336 (931.39 GiB 1000.07 GB)

  Used Dev Size : 1953260672 (931.39 GiB 1000.07 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : 70eb05b7:7d2174f1:111a2178:416e0fa4

    Update Time : Mon Nov 15 00:47:14 2021

       Checksum : 766ed719 - correct

         Events : 1355

   Device Role : Active device 0

   Array State : AA ('A' == active, '.' == missing)

 mdadm --examine /dev/sdc1

/dev/sdc1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 25576a1e:8b29c612:363ad2d1:7ad82d92

           Name : SERVERHOME:1  (local to host SERVERHOME)

  Creation Time : Wed Oct 23 02:05:24 2013

     Raid Level : raid1

   Raid Devices : 2

 Avail Dev Size : 1953260976 (931.39 GiB 1000.07 GB)

     Array Size : 976630336 (931.39 GiB 1000.07 GB)

  Used Dev Size : 1953260672 (931.39 GiB 1000.07 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : 3eec6f68:a6b4bf94:bc5c367d:ff34489c

    Update Time : Mon Nov 15 00:47:14 2021

       Checksum : c872747a - correct

         Events : 1355

   Device Role : Active device 1

   Array State : AA ('A' == active, '.' == missing)

mdadm --examine /dev/sdd1

/dev/sdd1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 11bb7b05:604a5ff1:034f4873:15bb4dc9

           Name : SERVERHOME:2  (local to host SERVERHOME)

  Creation Time : Sat Apr 28 10:10:25 2018

     Raid Level : raid1

   Raid Devices : 2

 Avail Dev Size : 3906764976 (1862.89 GiB 2000.26 GB)

     Array Size : 1953382336 (1862.89 GiB 2000.26 GB)

  Used Dev Size : 3906764672 (1862.89 GiB 2000.26 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : a4e24564:f407227d:6d41090d:24f2b233

    Update Time : Mon Nov 15 00:47:18 2021

       Checksum : 648a272a - correct

         Events : 156

   Device Role : Active device 0

   Array State : AA ('A' == active, '.' == missing)

mdadm --examine /dev/sde1

/dev/sde1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 11bb7b05:604a5ff1:034f4873:15bb4dc9

           Name : SERVERHOME:2  (local to host SERVERHOME)

  Creation Time : Sat Apr 28 10:10:25 2018

     Raid Level : raid1

   Raid Devices : 2

 Avail Dev Size : 3906764976 (1862.89 GiB 2000.26 GB)

     Array Size : 1953382336 (1862.89 GiB 2000.26 GB)

  Used Dev Size : 3906764672 (1862.89 GiB 2000.26 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : fd9e3c60:de93bc85:fb2382ac:f82f439d

    Update Time : Mon Nov 15 00:47:18 2021

       Checksum : 72248fd1 - correct

         Events : 156

   Device Role : Active device 1

   Array State : AA ('A' == active, '.' == missing)

mdadm --examine /dev/sdf1

/dev/sdf1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 2089ca77:2246a8cc:43cc7182:2dc105db

           Name : SERVERHOME:0  (local to host SERVERHOME)

  Creation Time : Thu Aug 23 00:46:01 2018

     Raid Level : raid6

   Raid Devices : 9

 Avail Dev Size : 3906764976 (1862.89 GiB 2000.26 GB)

     Array Size : 13673673216 (13040.23 GiB 14001.84 GB)

  Used Dev Size : 3906763776 (1862.89 GiB 2000.26 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : 878c435b:b9f3c6f0:1e3892c4:647f6520

    Update Time : Sun Nov 14 22:10:37 2021

       Checksum : e0a0ff8d - correct

         Events : 1039143

         Layout : left-symmetric

     Chunk Size : 512K

   Device Role : Active device 0

   Array State : AA..AA.AA ('A' == active, '.' == missing)

mdadm --examine /dev/sdg1

/dev/sdg1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 2089ca77:2246a8cc:43cc7182:2dc105db

           Name : SERVERHOME:0  (local to host SERVERHOME)

  Creation Time : Thu Aug 23 00:46:01 2018

     Raid Level : raid6

   Raid Devices : 9

 Avail Dev Size : 3906764976 (1862.89 GiB 2000.26 GB)

     Array Size : 13673673216 (13040.23 GiB 14001.84 GB)

  Used Dev Size : 3906763776 (1862.89 GiB 2000.26 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : e4808ba7:f6bde312:ec9376f3:bffea0c8

    Update Time : Sun Nov 14 22:10:37 2021

       Checksum : 26259952 - correct

         Events : 1039143

         Layout : left-symmetric

     Chunk Size : 512K

   Device Role : Active device 1

   Array State : AA..AA.AA ('A' == active, '.' == missing)

 mdadm --examine /dev/sdh1

/dev/sdh1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 2089ca77:2246a8cc:43cc7182:2dc105db

           Name : SERVERHOME:0  (local to host SERVERHOME)

  Creation Time : Thu Aug 23 00:46:01 2018

     Raid Level : raid6

   Raid Devices : 9

 Avail Dev Size : 3906764976 (1862.89 GiB 2000.26 GB)

     Array Size : 13673673216 (13040.23 GiB 14001.84 GB)

  Used Dev Size : 3906763776 (1862.89 GiB 2000.26 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : 8a2d21b9:88837606:8c045831:8e358258

    Update Time : Sun Nov 14 22:10:37 2021

       Checksum : f910b300 - correct

         Events : 1039143

         Layout : left-symmetric

     Chunk Size : 512K

   Device Role : spare

   Array State : AA..AA.AA ('A' == active, '.' == missing)

 mdadm --examine /dev/sdi1

/dev/sdi1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 2089ca77:2246a8cc:43cc7182:2dc105db

           Name : SERVERHOME:0  (local to host SERVERHOME)

  Creation Time : Thu Aug 23 00:46:01 2018

     Raid Level : raid6

   Raid Devices : 9

 Avail Dev Size : 3906764976 (1862.89 GiB 2000.26 GB)

     Array Size : 13673673216 (13040.23 GiB 14001.84 GB)

  Used Dev Size : 3906763776 (1862.89 GiB 2000.26 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : 60151838:1296fe6c:47fc5f10:2d8d0203

    Update Time : Sun Nov 14 22:10:37 2021

       Checksum : 6817fcbb - correct

         Events : 1039143

         Layout : left-symmetric

     Chunk Size : 512K

   Device Role : spare

   Array State : AA..AA.AA ('A' == active, '.' == missing)

 mdadm --examine /dev/sdj1

/dev/sdj1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 2089ca77:2246a8cc:43cc7182:2dc105db

           Name : SERVERHOME:0  (local to host SERVERHOME)

  Creation Time : Thu Aug 23 00:46:01 2018

     Raid Level : raid6

   Raid Devices : 9

 Avail Dev Size : 3906764976 (1862.89 GiB 2000.26 GB)

     Array Size : 13673673216 (13040.23 GiB 14001.84 GB)

  Used Dev Size : 3906763776 (1862.89 GiB 2000.26 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : da428c7b:18cd8a02:3cbfd58c:ad2fbfc1

    Update Time : Sun Nov 14 22:10:37 2021

       Checksum : 7c4ac6af - correct

         Events : 1039143

         Layout : left-symmetric

     Chunk Size : 512K

   Device Role : Active device 4

   Array State : AA..AA.AA ('A' == active, '.' == missing)

 mdadm --examine /dev/sdk1

/dev/sdk1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 2089ca77:2246a8cc:43cc7182:2dc105db

           Name : SERVERHOME:0  (local to host SERVERHOME)

  Creation Time : Thu Aug 23 00:46:01 2018

     Raid Level : raid6

   Raid Devices : 9

 Avail Dev Size : 3906764976 (1862.89 GiB 2000.26 GB)

     Array Size : 13673673216 (13040.23 GiB 14001.84 GB)

  Used Dev Size : 3906763776 (1862.89 GiB 2000.26 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : f80ded08:1b6752af:5d61caea:61c93c6f

    Update Time : Sun Nov 14 22:10:37 2021

       Checksum : c1e567a1 - correct

         Events : 1039143

         Layout : left-symmetric

     Chunk Size : 512K

   Device Role : Active device 5

   Array State : AA..AA.AA ('A' == active, '.' == missing)

mdadm --examine /dev/sdl1

/dev/sdl1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 2089ca77:2246a8cc:43cc7182:2dc105db

           Name : SERVERHOME:0  (local to host SERVERHOME)

  Creation Time : Thu Aug 23 00:46:01 2018

     Raid Level : raid6

   Raid Devices : 9

 Avail Dev Size : 3906764976 (1862.89 GiB 2000.26 GB)

     Array Size : 13673673216 (13040.23 GiB 14001.84 GB)

  Used Dev Size : 3906763776 (1862.89 GiB 2000.26 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : 0a0d578c:b178bf48:e61b0060:d12c602c

    Update Time : Fri Nov  5 02:09:32 2021

       Checksum : 11099f09 - correct

         Events : 1039075

         Layout : left-symmetric

     Chunk Size : 512K

   Device Role : Active device 6

   Array State : AAAAAAAAA ('A' == active, '.' == missing)

mdadm --examine /dev/sdm1

/dev/sdm1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 2089ca77:2246a8cc:43cc7182:2dc105db

           Name : SERVERHOME:0  (local to host SERVERHOME)

  Creation Time : Thu Aug 23 00:46:01 2018

     Raid Level : raid6

   Raid Devices : 9

 Avail Dev Size : 3906764976 (1862.89 GiB 2000.26 GB)

     Array Size : 13673673216 (13040.23 GiB 14001.84 GB)

  Used Dev Size : 3906763776 (1862.89 GiB 2000.26 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : b4a4e20a:6581da12:1f7c83e3:8a54833c

    Update Time : Sun Nov 14 22:10:37 2021

       Checksum : ed62bf13 - correct

         Events : 1039143

         Layout : left-symmetric

     Chunk Size : 512K

   Device Role : Active device 7

   Array State : AA..AA.AA ('A' == active, '.' == missing)

 mdadm --examine /dev/sdn1

/dev/sdn1:

          Magic : a92b4efc

        Version : 1.2

    Feature Map : 0x0

     Array UUID : 2089ca77:2246a8cc:43cc7182:2dc105db

           Name : SERVERHOME:0  (local to host SERVERHOME)

  Creation Time : Thu Aug 23 00:46:01 2018

     Raid Level : raid6

   Raid Devices : 9

 Avail Dev Size : 3906764976 (1862.89 GiB 2000.26 GB)

     Array Size : 13673673216 (13040.23 GiB 14001.84 GB)

  Used Dev Size : 3906763776 (1862.89 GiB 2000.26 GB)

    Data Offset : 262144 sectors

   Super Offset : 8 sectors

          State : clean

    Device UUID : c24d724e:be2e8915:fc8e542d:4ce4e356

    Update Time : Sun Nov 14 22:10:37 2021

       Checksum : 97d2b79a - correct

         Events : 1039143

         Layout : left-symmetric

     Chunk Size : 512K

   Device Role : Active device 8

   Array State : AA..AA.AA ('A' == active, '.' == missing)

Le sdl1 me laisse perplexe...

Donc c'est ça, le --examine de chaque partition, que je dois sauvegarder quand je crée une grappe RAID ?

Je vais essayer de prendre du temps pour faire ce que tu m'as dit, remettre les deux anciens disques et faire --examine. J'ouvre simplement la tour et je change les deux disques et je rallume???

raleur · 15-11-2021 11:35:32

1Nao1 a écrit :

Non, pardon, je me suis mal exprimé.
J'avais sauvegardé un vieux --detail en fichier .txt sur mon ordi pour garder une trace des commandes et de leurs réponses. J'avais utilisé ce vieux fichier .txt pour simplement imager ce que j'avais vu (en paniquant) avec les deux disques Removed. Je n'avais pas pensé à faire une capture d'écran à ce moment, je t'ai donc juste "modifié" le vieux fichier .txt pour te montrer le disques qui étaient devenus Removed.

J'avais compris que tu avais posté un vieux fichier en modifiant juste quelques lignes, d'où les incohérences.

1Nao1 a écrit :

Quand j'ai vu le --detail avec deux Removed, j'ai acheté deux nouveaux disques. J'ai arrêté ma tour, je l'ai ouverte et j'ai enlevé les deux disques et remplacé par les deux nouveaux.

Il aurait fallu rechercher pourquoi les deux disques étaient en removed avant d'envisager de les remplacer. Erreurs de lecture/écriture ? A priori ils n'étaient pas marqués "failed" ?
Est-ce que tu as aussi réécrit le fichier mdadm.conf à cette occasion (vérifie la date) ? Sinon, quel est son contenu ?

1Nao1 a écrit :

Le sdl1 me laisse perplexe...

En effet il est désynchronisé depuis le 5/11. C'était le disque actif n° 6 et le dernier état enregistré dans son superbloc était que l'ensemble était complet avec les 9 disques actifs. Une hypothèse est qu'une défaillance de ce disque est survenue pendant la reconstruction sur les deux nouveaux disques, interrompant celle-ci.

1Nao1 · 17-11-2021 11:12:03

raleur a écrit :

Il aurait fallu rechercher pourquoi les deux disques étaient en removed avant d'envisager de les remplacer. Erreurs de lecture/écriture ? A priori ils n'étaient pas marqués "failed" ?
Est-ce que tu as aussi réécrit le fichier mdadm.conf à cette occasion (vérifie la date) ? Sinon, quel est son contenu ?

Non, je n'ai pas modifié le mdadm.conf car j'ai vu le --detail qui était déconnant.
Il est du 25/02/2019 :

ARRAY /dev/md1 level=raid1 num-devices=2 metadata=1.2 name=SERVERHOME:1 UUID=25576a1e:8b29c612:363ad2d1:7ad82d92

   devices=/dev/sdb1,/dev/sdc1

ARRAY /dev/md2 level=raid1 num-devices=2 metadata=1.2 name=SERVERHOME:2 UUID=11bb7b05:604a5ff1:034f4873:15bb4dc9

   devices=/dev/sdd1,/dev/sde1

ARRAY /dev/md0 level=raid6 num-devices=9 metadata=1.2 name=SERVERHOME:0 UUID=2089ca77:2246a8cc:43cc7182:2dc105db

   devices=/dev/sdf1,/dev/sdg1,/dev/sdh1,/dev/sdi1,/dev/sdj1,/dev/sdk1,/dev/sdl1,/dev/sdm1,/dev/sdn1

J'ai utilisé smartmontools pendant un moment pour faire des tests sur mes disques mais le rapport que je recevais toutes les semaines c'est arrêté, je ne me suis jamais plongé dans le pourquoi.... Donc le sdl aurait surement montré des faiblesses. Mince.

Si je remets les deux disques anciens, comme tu me le disais, que dois-je faire?

Merci

raleur · 17-11-2021 14:04:35

D'abord retirer proprement les deux spares (--remove) avant de les débrancher si tu as besoin des ports. Après avoir rebranché les deux anciens disques, les identifier, examiner leur statut SMART avec smartctl -a et leurs méta-données RAID avec mdadm --examine.

PS: Si j'étais toi je supprimerais les lignes "devices=" de mdadm.conf, et l'avenir lors de la génération j'omettrais l'option --verbose pour ne plus les inclure.

1Nao1 · 23-11-2021 13:34:28

Merci beaucoup, tu m'as expliqué pas mal de choses que je ne connaissais pas. Mais je vais abandonner, pas assez de temps et je vais avoir de mon serveur rapidement donc je vais repartir sur une install toute neuve.

J'ai quand même une question : est-ce que si mon disque dur système tombe (il n'est pas en RAID) je peux récupérer un RAID 1 créé avec mdadm? Genre le "remonter" sur un nouveau Debian tout neuf?

raleur · 23-11-2021 19:48:43

Oui, bien sûr. Mais c'est un peu bizarre de monter un système où tout est en RAID sauf le système lui-même. Cela va en l'encontre de l'objectif du RAID 1 ou 6 qui est de fournir de la disponibilité : si le disque système tombe, les données même en RAID sont indisponibles. Cela peut néanmoins se justifier si tu peux tolérer une indisponibilité de quelques heures le temps de remettre un système en place.

Debian-facile

#1 11-11-2021 20:11:48

Mdadm : soucis au changement de disques durs

#2 12-11-2021 11:53:11

Re : Mdadm : soucis au changement de disques durs

#3 13-11-2021 09:32:15

Re : Mdadm : soucis au changement de disques durs

#4 13-11-2021 10:21:57

Re : Mdadm : soucis au changement de disques durs

#5 13-11-2021 10:33:40

Re : Mdadm : soucis au changement de disques durs

#6 13-11-2021 11:12:25

Re : Mdadm : soucis au changement de disques durs

#7 14-11-2021 23:52:49

Re : Mdadm : soucis au changement de disques durs

#8 15-11-2021 11:35:32

Re : Mdadm : soucis au changement de disques durs

#9 17-11-2021 11:12:03

Re : Mdadm : soucis au changement de disques durs

#10 17-11-2021 14:04:35

Re : Mdadm : soucis au changement de disques durs

#11 23-11-2021 13:34:28

Re : Mdadm : soucis au changement de disques durs

#12 23-11-2021 19:48:43

Re : Mdadm : soucis au changement de disques durs

Pied de page des forums