logo Debian Debian Debian-France Debian-Facile Debian-fr.org Forum-Debian.fr Debian ? Communautés logo inclusivité

Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).

#1 07-02-2016 12:26:59

wlourf
Membre
Distrib. : Jessie
Noyau : Linux 3.16.0-4-amd64
(G)UI : awesome
Inscription : 19-07-2010

[résolu] disque de RAID 1 en spare

Bonjour,

J'ai ma partition /home sur un RAID  1 avec deux disques sdb et sdc.
J'ai constaté que le disque sdb avait été sorti du RAID. Après diverses manips, fsck a trouvé des erreurs sur le disque et les a corrigé.

J'essaye de recréer le raid en ajoutant le disque comme ceci :

 mdadm --manage /dev/md0 --add /dev/sdb1


mdadm: added /dev/sdb1




 mdadm --detail /dev/md0


/dev/md0:
        Version : 1.2
  Creation Time : Sat Jul  9 13:11:45 2011
     Raid Level : raid1
     Array Size : 976759672 (931.51 GiB 1000.20 GB)
  Used Dev Size : 976759672 (931.51 GiB 1000.20 GB)
   Raid Devices : 2
  Total Devices : 2
    Persistence : Superblock is persistent

    Update Time : Sat Feb  6 10:49:09 2016
          State : clean, degraded, recovering
 Active Devices : 1
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 1

 Rebuild Status : 0% complete

           Name : p5w:0  (local to host p5w)
           UUID : 42968225:00499e3e:a0e598f7:75adfc34
         Events : 99405

    Number   Major   Minor   RaidDevice State
       1       8       33        0      active sync   /dev/sdc1
       2       8       17        1      spare rebuilding   /dev/sdb1
 


       
la construction s'effectue:       
       

cat /proc/mdstat


Personalities : [raid1]
md0 : active raid1 sdb1[2] sdc1[1]
      976759672 blocks super 1.2 [2/1] [U_]
      [>....................]  recovery =  0.1% (1100928/976759672) finish=535.2min speed=30380K/sec
     
unused devices: <none>
 



A la fin de la reconstruction, le disque est en spare hmm

 mdadm --detail /dev/md0


/dev/md0:
        Version : 1.2
  Creation Time : Sat Jul  9 13:11:45 2011
     Raid Level : raid1
     Array Size : 976759672 (931.51 GiB 1000.20 GB)
  Used Dev Size : 976759672 (931.51 GiB 1000.20 GB)
   Raid Devices : 2
  Total Devices : 2
    Persistence : Superblock is persistent

    Update Time : Sun Feb  7 11:26:34 2016
          State : clean, degraded
 Active Devices : 1
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 1

           Name : p5w:0  (local to host p5w)
           UUID : 42968225:00499e3e:a0e598f7:75adfc34
         Events : 108008

    Number   Major   Minor   RaidDevice State
       1       8       33        0      active sync   /dev/sdc1
       2       0        0        2      removed

       2       8       17        -      spare   /dev/sdb1
 



Je n'arrive pas à trouver la commande pour passer sdb1 dans le RAID, merci.

Dernière modification par wlourf (09-02-2016 16:07:18)

Hors ligne

#2 08-02-2016 00:01:39

raleur
Membre
Inscription : 03-10-2014

Re : [résolu] disque de RAID 1 en spare

wlourf a écrit :

Après diverses manips, fsck a trouvé des erreurs sur le disque et les a corrigé.


Peux-tu détailler ? Que je sache, fsck n'a rien à faire avec un membre de RAID. Il ne s'occupe que du système de fichiers qui est contenu dans l'ensemble RAID (/dev/md0) et pas des disques ou partitions membres. Chaque couche à sa place.

wlourf a écrit :

A la fin de la reconstruction, le disque est en spare


Qu'en disent /proc/mdstat et les logs du noyau ?


Il vaut mieux montrer que raconter.

Hors ligne

#3 08-02-2016 08:55:33

wlourf
Membre
Distrib. : Jessie
Noyau : Linux 3.16.0-4-amd64
(G)UI : awesome
Inscription : 19-07-2010

Re : [résolu] disque de RAID 1 en spare

Bonjour

D'après l'historique, j'ai utilisé la commande suivante :

 e2fsck /dev/md0


mais je n'ai pas noté les retours, il y avait des problèmes sur des inodes il me semble

Je viens de redémarrer le PC, et il refait une reconstruction, j'en ai pour la journée hmm
$

cat /proc/mdstat



Personalities : [raid1]
md0 : active raid1 sdb1[2] sdc1[1]
      976759672 blocks super 1.2 [2/1] [U_]
      [>....................]  recovery =  3.0% (29976512/976759672) finish=436.0min speed=36184K/sec
     
unused devices: <none>
 



et

$

dmesg | grep md0



[    1.677958] md/raid1:md0: active with 1 out of 2 mirrors
[    1.678018] md0: detected capacity change from 0 to 1000201904128
[    1.678730]  md0: unknown partition table
[    2.001101] md: recovery of RAID array md0
[   33.658396] EXT4-fs (md0): mounted filesystem with ordered data mode. Opts: (null)
 



et j'ai ça aussi :


$

cat /etc/mdadm/mdadm.conf



# mdadm.conf
#
# Please refer to mdadm.conf(5) for information about this file.
#

# by default (built-in), scan all partitions (/proc/partitions) and all
# containers for MD superblocks. alternatively, specify devices to scan, using
# wildcards if desired.
#DEVICE partitions containers

# auto-create devices with Debian standard permissions
CREATE owner=root group=disk mode=0660 auto=yes

# automatically tag new arrays as belonging to the local system
HOMEHOST <system>

# instruct the monitoring daemon where to send mail alerts
MAILADDR root

# definitions of existing MD arrays
ARRAY /dev/md/0  metadata=1.2 UUID=42968225:00499e3e:a0e598f7:75adfc34 name=p5w:0

# This configuration was auto-generated on Thu, 10 Sep 2015 10:06:41 +0200 by mkconf
 


ça aide ?

Edit à toto :
Aidé à mettre les balises Commandes user séparées de leurs retours, en tout cas ! tongue

Hors ligne

#4 08-02-2016 17:10:29

wlourf
Membre
Distrib. : Jessie
Noyau : Linux 3.16.0-4-amd64
(G)UI : awesome
Inscription : 19-07-2010

Re : [résolu] disque de RAID 1 en spare

la suite smile

La reconstruction a été interrompue, voir en bas de la sortie de dmesg :

 
[25317.379675] soffice.bin[28964]: segfault at 7f3c426dc098 ip 00007f3c4ea94d8c sp 00007fffeaea61c8 error 4 in libvcllo.so[7f3c4e7a3000+58c000]
[28416.000022] ata8.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[28416.000032] ata8.01: BMDMA stat 0x45
[28416.000038] ata8.01: failed command: READ DMA EXT
[28416.000045] ata8.01: cmd 25/00:00:80:91:3d/00:04:57:00:00/f0 tag 0 dma 524288 in
         res 51/40:a4:dc:94:3d/40:00:57:00:00/10 Emask 0x9 (media error)
[28416.000055] ata8.01: status: { DRDY ERR }
[28416.000060] ata8.01: error: { UNC }
[28416.024299] ata8.01: configured for UDMA/133
[28416.024330] sd 7:0:1:0: [sdc] Unhandled sense code
[28416.024336] sd 7:0:1:0: [sdc]  
[28416.024340] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[28416.024345] sd 7:0:1:0: [sdc]  
[28416.024349] Sense Key : Medium Error [current] [descriptor]
[28416.024360] Descriptor sense data with sense descriptors (in hex):
[28416.024366]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[28416.024401]         57 3d 94 dc
[28416.024413] sd 7:0:1:0: [sdc]  
[28416.024417] Add. Sense: Unrecovered read error - auto reallocate failed
[28416.024425] sd 7:0:1:0: [sdc] CDB:
[28416.024429] Read(10): 28 00 57 3d 91 80 00 04 00 00
[28416.024452] end_request: I/O error, dev sdc, sector 1463653596
[28416.024472] ata8: EH complete
[30333.244028] ata8.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[30333.244033] ata8.01: BMDMA stat 0x45
[30333.244035] ata8.01: failed command: READ DMA EXT
[30333.244040] ata8.01: cmd 25/00:00:00:f1:50/00:04:57:00:00/f0 tag 0 dma 524288 in
         res 51/40:50:b0:f1:50/40:00:57:00:00/10 Emask 0x9 (media error)
[30333.244042] ata8.01: status: { DRDY ERR }
[30333.244044] ata8.01: error: { UNC }
[30333.268302] ata8.01: configured for UDMA/133
[30333.268321] sd 7:0:1:0: [sdc] Unhandled sense code
[30333.268323] sd 7:0:1:0: [sdc]  
[30333.268325] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[30333.268326] sd 7:0:1:0: [sdc]  
[30333.268328] Sense Key : Medium Error [current] [descriptor]
[30333.268331] Descriptor sense data with sense descriptors (in hex):
[30333.268332]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[30333.268339]         57 50 f1 b0
[30333.268342] sd 7:0:1:0: [sdc]  
[30333.268344] Add. Sense: Unrecovered read error - auto reallocate failed
[30333.268346] sd 7:0:1:0: [sdc] CDB:
[30333.268347] Read(10): 28 00 57 50 f1 00 00 04 00 00
[30333.268354] end_request: I/O error, dev sdc, sector 1464922544
[30333.268373] ata8: EH complete
[30359.884022] ata8.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[30359.884026] ata8.01: BMDMA stat 0x45
[30359.884029] ata8.01: failed command: READ DMA EXT
[30359.884033] ata8.01: cmd 25/00:08:b0:f1:50/00:00:57:00:00/f0 tag 0 dma 4096 in
         res 51/40:08:b0:f1:50/40:00:57:00:00/10 Emask 0x9 (media error)
[30359.884035] ata8.01: status: { DRDY ERR }
[30359.884037] ata8.01: error: { UNC }
[30359.908301] ata8.01: configured for UDMA/133
[30359.908312] sd 7:0:1:0: [sdc] Unhandled sense code
[30359.908314] sd 7:0:1:0: [sdc]  
[30359.908316] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[30359.908317] sd 7:0:1:0: [sdc]  
[30359.908319] Sense Key : Medium Error [current] [descriptor]
[30359.908322] Descriptor sense data with sense descriptors (in hex):
[30359.908323]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[30359.908330]         57 50 f1 b0
[30359.908333] sd 7:0:1:0: [sdc]  
[30359.908335] Add. Sense: Unrecovered read error - auto reallocate failed
[30359.908337] sd 7:0:1:0: [sdc] CDB:
[30359.908339] Read(10): 28 00 57 50 f1 b0 00 00 08 00
[30359.908345] end_request: I/O error, dev sdc, sector 1464922544
[30359.908360] md/raid1:md0: sdc: unrecoverable I/O read error for block 1464918400
[30359.908361] ata8: EH complete
[30359.908395] md: md0: recovery interrupted.
[30365.876550] RAID1 conf printout:
[30365.876555]  --- wd:1 rd:2
[30365.876557]  disk 0, wo:0, o:1, dev:sdc1
[30365.876559]  disk 1, wo:1, o:1, dev:sdb1
[30365.888010] RAID1 conf printout:
[30365.888013]  --- wd:1 rd:2
[30365.888015]  disk 0, wo:0, o:1, dev:sdc1


 



avec cette ligne, bien surlignée en rouge :


[30359.908360] md/raid1:md0: sdc: unrecoverable I/O read error for block 1464918400
 



Que me conseillez-vous ? Changer le disque, tenter une réparation ? oui mais comment ?!

Merci

Hors ligne

#5 08-02-2016 23:40:05

raleur
Membre
Inscription : 03-10-2014

Re : [résolu] disque de RAID 1 en spare

La reconstruction a été interrompue suite à une erreur de lecture sur sdc. Inutile de dire que c'est mal parti si le seul disque actif du RAID a des blocs défectueux. J'espère que tu as une sauvegarde, sinon il est temps de la faire. Avec un peu de chance le bloc illisible n'appartient à aucun fichier. Rappel : le RAID n'est pas une sauvegarde.

Un petit "smartctl -A" sur chacun des deux disques pour vérifier les attributs SMART ?

Dernière modification par raleur (08-02-2016 23:41:24)


Il vaut mieux montrer que raconter.

Hors ligne

#6 09-02-2016 10:13:03

wlourf
Membre
Distrib. : Jessie
Noyau : Linux 3.16.0-4-amd64
(G)UI : awesome
Inscription : 19-07-2010

Re : [résolu] disque de RAID 1 en spare

Salut,



En effet, interessant ça, c'est sdb qui est en spare et sdc qui cause l'arrêt

[root@p5w:~]

smartctl -A /dev/sdb



smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   044   044   016    Pre-fail  Always       -       1302417515
  2 Throughput_Performance  0x0005   113   113   054    Pre-fail  Offline      -       183
  3 Spin_Up_Time            0x0007   117   117   024    Pre-fail  Always       -       324 (Average 321)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       3549
  5 Reallocated_Sector_Ct   0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 2015
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   130   130   020    Pre-fail  Offline      -       35
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       17266
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       3545
192 Power-Off_Retract_Count 0x0032   097   097   000    Old_age   Always       -       3644
193 Load_Cycle_Count        0x0012   097   097   000    Old_age   Always       -       3644
194 Temperature_Celsius     0x0002   166   166   000    Old_age   Always       -       36 (Min/Max 16/52)
196 Reallocated_Event_Count 0x0032   001   001   000    Old_age   Always       -       2226
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0
 



et


[root@p5w:~]

smartctl -A /dev/sdc



smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   045   045   016    Pre-fail  Always       -       909730556
  2 Throughput_Performance  0x0005   120   120   054    Pre-fail  Offline      -       154
  3 Spin_Up_Time            0x0007   119   119   024    Pre-fail  Always       -       318 (Average 319)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       3547
  5 Reallocated_Sector_Ct   0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 1979
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   132   132   020    Pre-fail  Offline      -       34
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       17264
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       3543
192 Power-Off_Retract_Count 0x0032   097   097   000    Old_age   Always       -       3616
193 Load_Cycle_Count        0x0012   097   097   000    Old_age   Always       -       3616
194 Temperature_Celsius     0x0002   181   181   000    Old_age   Always       -       33 (Min/Max 16/50)
196 Reallocated_Event_Count 0x0032   001   001   000    Old_age   Always       -       2066
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       36
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0
 



[root@p5w:~]

smartctl -H /dev/sdb



smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
Failed Attributes:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 2015


 



[root@p5w:~]

smartctl -H /dev/sdc



smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.16.0-4-amd64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
Failed Attributes:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 1979

 





Ça semble mal parti pour les deux disques (deux Hitachi achetés ensemble, oui je sais, c'est pas bien neutral )

D'après le wiki, les disques sont vieux (Old_age) (je les ai acheté en 2011) ou sur le point de tomber en panne (Pre-fail).


Sinon, ma dernière sauvegarde date de la semaine dernière et j'en refais une aujourd'hui, je vais peut-être même en faire sur un deuxième disque (mon disque de sauvegarde, qui ne sert qu'à ça, indique aussi des Pre-fail yikes:). Je ne connaissais pas smartctl, c'est un bel outil.

Il y aurait un moyen de tenter de réparer ou d'isoler ce qui ne va pas (par exemple, faire une partition plus petite sur une partie du disque fonctionnelle, actuellement il y a une seule partition sur l'ensemble du disque)?

Avec une double sauvegarde, je peux tenter de formater les deux disques mais est-ce que ça corrigera les erreurs?

Edit à toto :
Mis les commandes smart sous Commandes root séparées de leurs retours.

Hors ligne

#7 09-02-2016 12:33:12

raleur
Membre
Inscription : 03-10-2014

Re : [résolu] disque de RAID 1 en spare

wlourf a écrit :

Ça semble mal parti pour les deux disques


En effet, les deux ont épuisé (ou quasiment) leur stock de secteurs de réserve pour la réallocation des secteurs défectueux (attribut 5 Reallocated_Sector_Ct). En plus de cela, /dev/sdc a 36 secteurs illisibles (attribut 197 Current_Pending_Sector) non réalloués. C'est ce qui provoque l'échec de la reconstruction.

wlourf a écrit :

D'après le wiki, les disques sont vieux (Old_age) (je les ai acheté en 2011) ou sur le point de tomber en panne (Pre-fail).


"Old_age" ou "Pre-fail" ne qualifient pas le disque mais les attributs SMART. Un attribut de type Old_age est associé au vieillissement normal du disque, alors qu'un attribut de type Pre-fail est associé à un risque de défaillance. Ce qu'il faut regarder, ce sont les attributs avec quelque chose marqué dans la colonne "WHEN_FAILED", comme FAILING_NOW.

wlourf a écrit :

Il y aurait un moyen de tenter de réparer ou d'isoler ce qui ne va pas (par exemple, faire une partition plus petite sur une partie du disque fonctionnelle, actuellement il y a une seule partition sur l'ensemble du disque)?


Je te déconseille de continuer à utiliser ces deux disques qui ont épuisé tous leurs secteurs de réserve ou presque. Concernant les secteurs défectueux visibles de /dev/sdc, il y a des techniques pour essayer de réparer (réallocation par des secteurs sains) ou isoler ces secteurs pour qu'ils ne soient plus utilisés, mais elles ne sont envisageables que pour des disques qui ne sont pas encore au bout de leur potentiel.

Dernière modification par raleur (09-02-2016 12:35:16)


Il vaut mieux montrer que raconter.

Hors ligne

#8 09-02-2016 16:06:58

wlourf
Membre
Distrib. : Jessie
Noyau : Linux 3.16.0-4-amd64
(G)UI : awesome
Inscription : 19-07-2010

Re : [résolu] disque de RAID 1 en spare

Merci pour tes conseils raleur, j'ai reçu les mêmes avis sur irc. J'ai fait une double sauvegarde et éteint le PC...

Par contre, après réflexion, il s'avère que le RAID n'est pas très utile dans mon cas : PC de bureau, un seul utilisateur. Je vais donc le remplacer par un seul disque + un rsync journalier.
En cas de problème sur le disque interne, la réinstallation sera un peu plus longue mais le second disque sera utilisé moins longtemps.

Hors ligne

Pied de page des forums