[résolu] disque de RAID 1 en spare

wlourf · 07-02-2016 12:26:59

Bonjour,

J'ai ma partition /home sur un RAID 1 avec deux disques sdb et sdc.
J'ai constaté que le disque sdb avait été sorti du RAID. Après diverses manips, fsck a trouvé des erreurs sur le disque et les a corrigé.

J'essaye de recréer le raid en ajoutant le disque comme ceci :

 mdadm --manage /dev/md0 --add /dev/sdb1 

mdadm: added /dev/sdb1

 mdadm --detail /dev/md0

/dev/md0:

        Version : 1.2

  Creation Time : Sat Jul  9 13:11:45 2011

     Raid Level : raid1

     Array Size : 976759672 (931.51 GiB 1000.20 GB)

  Used Dev Size : 976759672 (931.51 GiB 1000.20 GB)

   Raid Devices : 2

  Total Devices : 2

    Persistence : Superblock is persistent

    Update Time : Sat Feb  6 10:49:09 2016

          State : clean, degraded, recovering 

 Active Devices : 1

Working Devices : 2

 Failed Devices : 0

  Spare Devices : 1

 Rebuild Status : 0% complete

           Name : p5w:0  (local to host p5w)

           UUID : 42968225:00499e3e:a0e598f7:75adfc34

         Events : 99405

    Number   Major   Minor   RaidDevice State

       1       8       33        0      active sync   /dev/sdc1

       2       8       17        1      spare rebuilding   /dev/sdb1

la construction s'effectue:

cat /proc/mdstat 

Personalities : [raid1] 

md0 : active raid1 sdb1[2] sdc1[1]

      976759672 blocks super 1.2 [2/1] [U_]

      [>....................]  recovery =  0.1% (1100928/976759672) finish=535.2min speed=30380K/sec

unused devices: <none>

A la fin de la reconstruction, le disque est en spare

 mdadm --detail /dev/md0

/dev/md0:

        Version : 1.2

  Creation Time : Sat Jul  9 13:11:45 2011

     Raid Level : raid1

     Array Size : 976759672 (931.51 GiB 1000.20 GB)

  Used Dev Size : 976759672 (931.51 GiB 1000.20 GB)

   Raid Devices : 2

  Total Devices : 2

    Persistence : Superblock is persistent

    Update Time : Sun Feb  7 11:26:34 2016

          State : clean, degraded 

 Active Devices : 1

Working Devices : 2

 Failed Devices : 0

  Spare Devices : 1

           Name : p5w:0  (local to host p5w)

           UUID : 42968225:00499e3e:a0e598f7:75adfc34

         Events : 108008

    Number   Major   Minor   RaidDevice State

       1       8       33        0      active sync   /dev/sdc1

       2       0        0        2      removed

       2       8       17        -      spare   /dev/sdb1

Je n'arrive pas à trouver la commande pour passer sdb1 dans le RAID, merci.

Dernière modification par wlourf (09-02-2016 16:07:18)

raleur · 08-02-2016 00:01:39

wlourf a écrit :

Après diverses manips, fsck a trouvé des erreurs sur le disque et les a corrigé.

Peux-tu détailler ? Que je sache, fsck n'a rien à faire avec un membre de RAID. Il ne s'occupe que du système de fichiers qui est contenu dans l'ensemble RAID (/dev/md0) et pas des disques ou partitions membres. Chaque couche à sa place.

wlourf a écrit :

A la fin de la reconstruction, le disque est en spare

Qu'en disent /proc/mdstat et les logs du noyau ?

wlourf · 08-02-2016 08:55:33

Bonjour

D'après l'historique, j'ai utilisé la commande suivante :

 e2fsck /dev/md0 

mais je n'ai pas noté les retours, il y avait des problèmes sur des inodes il me semble

Je viens de redémarrer le PC, et il refait une reconstruction, j'en ai pour la journée
$

cat /proc/mdstat

Personalities : [raid1] 

md0 : active raid1 sdb1[2] sdc1[1]

      976759672 blocks super 1.2 [2/1] [U_]

      [>....................]  recovery =  3.0% (29976512/976759672) finish=436.0min speed=36184K/sec

unused devices: <none>

et

$

dmesg | grep md0

[    1.677958] md/raid1:md0: active with 1 out of 2 mirrors

[    1.678018] md0: detected capacity change from 0 to 1000201904128

[    1.678730]  md0: unknown partition table

[    2.001101] md: recovery of RAID array md0

[   33.658396] EXT4-fs (md0): mounted filesystem with ordered data mode. Opts: (null)

et j'ai ça aussi :

$

cat /etc/mdadm/mdadm.conf 

# mdadm.conf

#

# Please refer to mdadm.conf(5) for information about this file.

#

# by default (built-in), scan all partitions (/proc/partitions) and all

# containers for MD superblocks. alternatively, specify devices to scan, using

# wildcards if desired.

#DEVICE partitions containers

# auto-create devices with Debian standard permissions

CREATE owner=root group=disk mode=0660 auto=yes

# automatically tag new arrays as belonging to the local system

HOMEHOST <system>

# instruct the monitoring daemon where to send mail alerts

MAILADDR root

# definitions of existing MD arrays

ARRAY /dev/md/0  metadata=1.2 UUID=42968225:00499e3e:a0e598f7:75adfc34 name=p5w:0

# This configuration was auto-generated on Thu, 10 Sep 2015 10:06:41 +0200 by mkconf

ça aide ?

Edit à toto :
Aidé à mettre les balises Commandes user séparées de leurs retours, en tout cas !

wlourf · 08-02-2016 17:10:29

la suite

La reconstruction a été interrompue, voir en bas de la sortie de dmesg :

 
[25317.379675] soffice.bin[28964]: segfault at 7f3c426dc098 ip 00007f3c4ea94d8c sp 00007fffeaea61c8 error 4 in libvcllo.so[7f3c4e7a3000+58c000]

[28416.000022] ata8.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0

[28416.000032] ata8.01: BMDMA stat 0x45

[28416.000038] ata8.01: failed command: READ DMA EXT

[28416.000045] ata8.01: cmd 25/00:00:80:91:3d/00:04:57:00:00/f0 tag 0 dma 524288 in

         res 51/40:a4:dc:94:3d/40:00:57:00:00/10 Emask 0x9 (media error)

[28416.000055] ata8.01: status: { DRDY ERR }

[28416.000060] ata8.01: error: { UNC }

[28416.024299] ata8.01: configured for UDMA/133

[28416.024330] sd 7:0:1:0: [sdc] Unhandled sense code

[28416.024336] sd 7:0:1:0: [sdc]  

[28416.024340] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE

[28416.024345] sd 7:0:1:0: [sdc]  

[28416.024349] Sense Key : Medium Error [current] [descriptor]

[28416.024360] Descriptor sense data with sense descriptors (in hex):

[28416.024366]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 

[28416.024401]         57 3d 94 dc 

[28416.024413] sd 7:0:1:0: [sdc]  

[28416.024417] Add. Sense: Unrecovered read error - auto reallocate failed

[28416.024425] sd 7:0:1:0: [sdc] CDB: 

[28416.024429] Read(10): 28 00 57 3d 91 80 00 04 00 00

[28416.024452] end_request: I/O error, dev sdc, sector 1463653596

[28416.024472] ata8: EH complete

[30333.244028] ata8.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0

[30333.244033] ata8.01: BMDMA stat 0x45

[30333.244035] ata8.01: failed command: READ DMA EXT

[30333.244040] ata8.01: cmd 25/00:00:00:f1:50/00:04:57:00:00/f0 tag 0 dma 524288 in

         res 51/40:50:b0:f1:50/40:00:57:00:00/10 Emask 0x9 (media error)

[30333.244042] ata8.01: status: { DRDY ERR }

[30333.244044] ata8.01: error: { UNC }

[30333.268302] ata8.01: configured for UDMA/133

[30333.268321] sd 7:0:1:0: [sdc] Unhandled sense code

[30333.268323] sd 7:0:1:0: [sdc]  

[30333.268325] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE

[30333.268326] sd 7:0:1:0: [sdc]  

[30333.268328] Sense Key : Medium Error [current] [descriptor]

[30333.268331] Descriptor sense data with sense descriptors (in hex):

[30333.268332]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 

[30333.268339]         57 50 f1 b0 

[30333.268342] sd 7:0:1:0: [sdc]  

[30333.268344] Add. Sense: Unrecovered read error - auto reallocate failed

[30333.268346] sd 7:0:1:0: [sdc] CDB: 

[30333.268347] Read(10): 28 00 57 50 f1 00 00 04 00 00

[30333.268354] end_request: I/O error, dev sdc, sector 1464922544

[30333.268373] ata8: EH complete

[30359.884022] ata8.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0

[30359.884026] ata8.01: BMDMA stat 0x45

[30359.884029] ata8.01: failed command: READ DMA EXT

[30359.884033] ata8.01: cmd 25/00:08:b0:f1:50/00:00:57:00:00/f0 tag 0 dma 4096 in

         res 51/40:08:b0:f1:50/40:00:57:00:00/10 Emask 0x9 (media error)

[30359.884035] ata8.01: status: { DRDY ERR }

[30359.884037] ata8.01: error: { UNC }

[30359.908301] ata8.01: configured for UDMA/133

[30359.908312] sd 7:0:1:0: [sdc] Unhandled sense code

[30359.908314] sd 7:0:1:0: [sdc]  

[30359.908316] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE

[30359.908317] sd 7:0:1:0: [sdc]  

[30359.908319] Sense Key : Medium Error [current] [descriptor]

[30359.908322] Descriptor sense data with sense descriptors (in hex):

[30359.908323]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 

[30359.908330]         57 50 f1 b0 

[30359.908333] sd 7:0:1:0: [sdc]  

[30359.908335] Add. Sense: Unrecovered read error - auto reallocate failed

[30359.908337] sd 7:0:1:0: [sdc] CDB: 

[30359.908339] Read(10): 28 00 57 50 f1 b0 00 00 08 00

[30359.908345] end_request: I/O error, dev sdc, sector 1464922544

[30359.908360] md/raid1:md0: sdc: unrecoverable I/O read error for block 1464918400

[30359.908361] ata8: EH complete

[30359.908395] md: md0: recovery interrupted.

[30365.876550] RAID1 conf printout:

[30365.876555]  --- wd:1 rd:2

[30365.876557]  disk 0, wo:0, o:1, dev:sdc1

[30365.876559]  disk 1, wo:1, o:1, dev:sdb1

[30365.888010] RAID1 conf printout:

[30365.888013]  --- wd:1 rd:2

[30365.888015]  disk 0, wo:0, o:1, dev:sdc1

avec cette ligne, bien surlignée en rouge :

[30359.908360] md/raid1:md0: sdc: unrecoverable I/O read error for block 1464918400

 

Que me conseillez-vous ? Changer le disque, tenter une réparation ? oui mais comment ?!

Merci

raleur · 08-02-2016 23:40:05

La reconstruction a été interrompue suite à une erreur de lecture sur sdc. Inutile de dire que c'est mal parti si le seul disque actif du RAID a des blocs défectueux. J'espère que tu as une sauvegarde, sinon il est temps de la faire. Avec un peu de chance le bloc illisible n'appartient à aucun fichier. Rappel : le RAID n'est pas une sauvegarde.

Un petit "smartctl -A" sur chacun des deux disques pour vérifier les attributs SMART ?

Dernière modification par raleur (08-02-2016 23:41:24)

wlourf · 09-02-2016 10:13:03

Salut,

En effet, interessant ça, c'est sdb qui est en spare et sdc qui cause l'arrêt

[root@p5w:~]

smartctl -A /dev/sdb

smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build)

Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===

SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x000b   044   044   016    Pre-fail  Always       -       1302417515

  2 Throughput_Performance  0x0005   113   113   054    Pre-fail  Offline      -       183

  3 Spin_Up_Time            0x0007   117   117   024    Pre-fail  Always       -       324 (Average 321)

  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       3549

  5 Reallocated_Sector_Ct   0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 2015

  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0

  8 Seek_Time_Performance   0x0005   130   130   020    Pre-fail  Offline      -       35

  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       17266

 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0

 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       3545

192 Power-Off_Retract_Count 0x0032   097   097   000    Old_age   Always       -       3644

193 Load_Cycle_Count        0x0012   097   097   000    Old_age   Always       -       3644

194 Temperature_Celsius     0x0002   166   166   000    Old_age   Always       -       36 (Min/Max 16/52)

196 Reallocated_Event_Count 0x0032   001   001   000    Old_age   Always       -       2226

197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0

198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0

199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

et

[root@p5w:~]

smartctl -A /dev/sdc

smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build)

Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===

SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x000b   045   045   016    Pre-fail  Always       -       909730556

  2 Throughput_Performance  0x0005   120   120   054    Pre-fail  Offline      -       154

  3 Spin_Up_Time            0x0007   119   119   024    Pre-fail  Always       -       318 (Average 319)

  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       3547

  5 Reallocated_Sector_Ct   0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 1979

  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0

  8 Seek_Time_Performance   0x0005   132   132   020    Pre-fail  Offline      -       34

  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       17264

 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0

 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       3543

192 Power-Off_Retract_Count 0x0032   097   097   000    Old_age   Always       -       3616

193 Load_Cycle_Count        0x0012   097   097   000    Old_age   Always       -       3616

194 Temperature_Celsius     0x0002   181   181   000    Old_age   Always       -       33 (Min/Max 16/50)

196 Reallocated_Event_Count 0x0032   001   001   000    Old_age   Always       -       2066

197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       36

198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0

199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

[root@p5w:~]

smartctl -H /dev/sdb

smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build)

Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: FAILED!

Drive failure expected in less than 24 hours. SAVE ALL DATA.

Failed Attributes:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  5 Reallocated_Sector_Ct   0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 2015

[root@p5w:~]

smartctl -H /dev/sdc

smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build)

Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: FAILED!

Drive failure expected in less than 24 hours. SAVE ALL DATA.

Failed Attributes:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  5 Reallocated_Sector_Ct   0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 1979

Ça semble mal parti pour les deux disques (deux Hitachi achetés ensemble, oui je sais, c'est pas bien )

D'après le wiki, les disques sont vieux (Old_age) (je les ai acheté en 2011) ou sur le point de tomber en panne (Pre-fail).

Sinon, ma dernière sauvegarde date de la semaine dernière et j'en refais une aujourd'hui, je vais peut-être même en faire sur un deuxième disque (mon disque de sauvegarde, qui ne sert qu'à ça, indique aussi des Pre-fail :). Je ne connaissais pas smartctl, c'est un bel outil.

Il y aurait un moyen de tenter de réparer ou d'isoler ce qui ne va pas (par exemple, faire une partition plus petite sur une partie du disque fonctionnelle, actuellement il y a une seule partition sur l'ensemble du disque)?

Avec une double sauvegarde, je peux tenter de formater les deux disques mais est-ce que ça corrigera les erreurs?

Edit à toto :
Mis les commandes smart sous Commandes root séparées de leurs retours.

raleur · 09-02-2016 12:33:12

wlourf a écrit :

Ça semble mal parti pour les deux disques

En effet, les deux ont épuisé (ou quasiment) leur stock de secteurs de réserve pour la réallocation des secteurs défectueux (attribut 5 Reallocated_Sector_Ct). En plus de cela, /dev/sdc a 36 secteurs illisibles (attribut 197 Current_Pending_Sector) non réalloués. C'est ce qui provoque l'échec de la reconstruction.

wlourf a écrit :

D'après le wiki, les disques sont vieux (Old_age) (je les ai acheté en 2011) ou sur le point de tomber en panne (Pre-fail).

"Old_age" ou "Pre-fail" ne qualifient pas le disque mais les attributs SMART. Un attribut de type Old_age est associé au vieillissement normal du disque, alors qu'un attribut de type Pre-fail est associé à un risque de défaillance. Ce qu'il faut regarder, ce sont les attributs avec quelque chose marqué dans la colonne "WHEN_FAILED", comme FAILING_NOW.

wlourf a écrit :

Il y aurait un moyen de tenter de réparer ou d'isoler ce qui ne va pas (par exemple, faire une partition plus petite sur une partie du disque fonctionnelle, actuellement il y a une seule partition sur l'ensemble du disque)?

Je te déconseille de continuer à utiliser ces deux disques qui ont épuisé tous leurs secteurs de réserve ou presque. Concernant les secteurs défectueux visibles de /dev/sdc, il y a des techniques pour essayer de réparer (réallocation par des secteurs sains) ou isoler ces secteurs pour qu'ils ne soient plus utilisés, mais elles ne sont envisageables que pour des disques qui ne sont pas encore au bout de leur potentiel.

Dernière modification par raleur (09-02-2016 12:35:16)

wlourf · 09-02-2016 16:06:58

Merci pour tes conseils raleur, j'ai reçu les mêmes avis sur irc. J'ai fait une double sauvegarde et éteint le PC...

Par contre, après réflexion, il s'avère que le RAID n'est pas très utile dans mon cas : PC de bureau, un seul utilisateur. Je vais donc le remplacer par un seul disque + un rsync journalier.
En cas de problème sur le disque interne, la réinstallation sera un peu plus longue mais le second disque sera utilisé moins longtemps.

Debian-facile

#1 07-02-2016 12:26:59

[résolu] disque de RAID 1 en spare

#2 08-02-2016 00:01:39

Re : [résolu] disque de RAID 1 en spare

#3 08-02-2016 08:55:33

Re : [résolu] disque de RAID 1 en spare

#4 08-02-2016 17:10:29

Re : [résolu] disque de RAID 1 en spare

#5 08-02-2016 23:40:05

Re : [résolu] disque de RAID 1 en spare

#6 09-02-2016 10:13:03

Re : [résolu] disque de RAID 1 en spare

#7 09-02-2016 12:33:12

Re : [résolu] disque de RAID 1 en spare

#8 09-02-2016 16:06:58

Re : [résolu] disque de RAID 1 en spare

Pied de page des forums