Debian Debian-France Debian-Facile Debian-fr.org Debian-fr.xyz Debian ? Communautés

Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).

#1 24-03-2021 19:17:38

Tawal
Membre
Distrib. : Debian 11 Bullseye
Noyau : Linux 5.10.0-9-amd64
(G)UI : Xfce
Inscription : 25-02-2021

Smartmontools - Seek Error Rate élevé

Hello

J'ai un disque dur (Datas) qui présente un nombre élevé de Seek_Error_Rate : yikes

$ sudo smartctl -s on -a /dev/sdb
[sudo] Mot de passe de tawal : 
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.19.0-14-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     ST9250311CS
Serial Number:    6VCR5ZAX
LU WWN Device Id: 5 000c50 036b1219c
Firmware Version: SC1A
User Capacity:    250059350016 bytes [250 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    5400 rpm
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Wed Mar 24 17:58:10 2021 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
          was completed without error.
          Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
          without error or no self-test has ever
          been run.
Total time to complete Offline
data collection:    (    0) seconds.
Offline data collection
capabilities:        (0x7b) SMART execute Offline immediate.
          Auto Offline data collection on/off support.
          Suspend Offline collection upon new
          command.
          Offline surface scan supported.
          Self-test supported.
          Conveyance Self-test supported.
          Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
          power-saving mode.
          Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
          General Purpose Logging supported.
Short self-test routine
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    (  80) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.
SCT capabilities:          (0x103f) SCT Status supported.
          SCT Error Recovery Control supported.
          SCT Feature Control supported.
          SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   117   099   006    Pre-fail  Always       -       128048976
  3 Spin_Up_Time            0x0003   100   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       526
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   075   060   030    Pre-fail  Always       -       39894824
  9 Power_On_Hours          0x0032   087   087   000    Old_age   Always       -       12150
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       527
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   099   099   000    Old_age   Always       -       21475164165
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   059   045   045    Old_age   Always   In_the_past 41 (Min/Max 7/41)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       438
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       542
194 Temperature_Celsius     0x0022   041   055   000    Old_age   Always       -       41 (0 4 0 0 0)
195 Hardware_ECC_Recovered  0x001a   051   047   000    Old_age   Always       -       128048976
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

$



Mais, bizarrement, il n'y a aucun Current_Pending_sector. question.gif

Et j'ai aussi des erreurs dans le kern.log : mad

ata4.00: exception Emask 0x0 SAct 0xd SErr 0xc0002 action 0x6 frozen
ata4: SError: { RecovComm CommWake 10B8B }
ata4.00: failed command: WRITE FPDMA QUEUED
ata4.00: cmd 61/10:00:60:0e:84/00:00:0e:00:00/40 tag 0 ncq dma 8192 out
          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
ata4.00: status: { DRDY }
ata4.00: failed command: READ FPDMA QUEUED
ata4.00: cmd 60/00:10:60:8e:20/01:00:12:00:00/40 tag 2 ncq dma 131072 in
          res 40/00:01:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
ata4.00: status: { DRDY }
ata4.00: failed command: READ FPDMA QUEUED
ata4.00: cmd 60/00:18:60:8f:20/01:00:12:00:00/40 tag 3 ncq dma 131072 in
          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
ata4.00: status: { DRDY }
ata4: hard resetting link
ata4: softreset failed (device not ready)
ata4: applying PMP SRST workaround and retrying
ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata4.00: configured for UDMA/133
sd 3:0:0:0: [sdb] tag#2 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 3:0:0:0: [sdb] tag#2 Sense Key : Illegal Request [current]
sd 3:0:0:0: [sdb] tag#2 Add. Sense: Unaligned write command
sd 3:0:0:0: [sdb] tag#2 CDB: Read(10) 28 00 12 20 8e 60 00 01 00 00
print_req_error: I/O error, dev sdb, sector 304123488
sd 3:0:0:0: [sdb] tag#3 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 3:0:0:0: [sdb] tag#3 Sense Key : Illegal Request [current]
sd 3:0:0:0: [sdb] tag#3 Add. Sense: Unaligned write command
sd 3:0:0:0: [sdb] tag#3 CDB: Read(10) 28 00 12 20 8f 60 00 01 00 00
print_req_error: I/O error, dev sdb, sector 304123744
ata4: EH complete


Le timestamp de tout ça est entre [18335.652807] et [18336.305250] soit un total de 0,652443 (rapide).


Est-ce grave ?
Une panne est-elle immente ?

Je ne sais pas si toutes mes datas sont intègres, certaines sont bien froides (plus consultées depuis un moment). old_geek.gif

Qu'en pensez-vous ?

Edit:
Je dis Datas froides, pas dans le sens de la température, car c'est vrai qu'il est un peu chaud (41°C).
Cette chauffe ne vient pas de lui mais de la CM+GPU.
C'est le disque le plus près de cet ensemble.

Dernière modification par Tawal (24-03-2021 19:27:18)


Comme la science n'est pas infuse, elle se diffuse.
Useless Use of Cat Award
Filenames and Pathnames in Shell: How to do it Correctly
À chaque problème sa solution, à chaque solution son moyen, si pas de moyen, toujours le problème !

Hors ligne

#2 24-03-2021 22:02:13

raleur
Membre
Inscription : 03-10-2014

Re : Smartmontools - Seek Error Rate élevé

Tawal a écrit :

J'ai un disque dur (Datas) qui présente un nombre élevé de Seek_Error_Rate


Qu'est-ce qui te fait dire ça ?

Tawal a écrit :

Mais, bizarrement, il n'y a aucun Current_Pending_sector.


Il n'y a aucun rapport entre les deux.

Par contre la température limite a été atteinte au moins une fois.

Les messages d'erreur du noyau me font penser à un problème d'interface SATA, de câble ou de contrôleur.


Il vaut mieux montrer que raconter.

Hors ligne

#3 24-03-2021 22:31:58

Tawal
Membre
Distrib. : Debian 11 Bullseye
Noyau : Linux 5.10.0-9-amd64
(G)UI : Xfce
Inscription : 25-02-2021

Re : Smartmontools - Seek Error Rate élevé

Concernant les Seek_Error_Rate,

raleur a écrit :

Qu'est-ce qui te fait dire ça ?

Je trouve que 39 Millions, c'est beaucoup.
Mais d'après mes lectures, ce chiffre ne correspond pas aux nombre d'erreurs. (env 1.8M pour 1 erreur)
Et, j'ai lu tout et son contraire à propos des seek_error_rate :

  • C'est pas grave et peut s'ignorer

  • C'est grave, et faut changer de disque sans trop attendre



raleur a écrit :

Les messages d'erreur du noyau me font penser à un problème d'interface SATA, de câble ou de contrôleur.

Oui, j'ai toujours eu des messages concernant 3 ports ata (ata3 ata4 et ata6)


Donc d'après toi, pas de grand risque de pertes de données pour ce disque dur ? yes.gif

Pour les erreurs du noyau, ça va être difficile sans démonter.
Et là, je pêche totalement.
J'ai bien essayé, mais il doit y avoir des vis cachées (sans jeu de mots lol)
J'ai bien trouvé des gammes de montage/démontage, mais pas pour mon modèle exact.
Et puis c'est un PackardBell ...

Merci de tes éclairages smile


Comme la science n'est pas infuse, elle se diffuse.
Useless Use of Cat Award
Filenames and Pathnames in Shell: How to do it Correctly
À chaque problème sa solution, à chaque solution son moyen, si pas de moyen, toujours le problème !

Hors ligne

#4 25-03-2021 21:07:58

raleur
Membre
Inscription : 03-10-2014

Re : Smartmontools - Seek Error Rate élevé

Tawal a écrit :

Je trouve que 39 Millions, c'est beaucoup.


39 millions de quoi ?

Tawal a écrit :

Donc d'après toi, pas de grand risque de pertes de données pour ce disque dur ?


Je n'ai rien dit ni même insinué de tel. Ça peut vouloir dire que la carte contrôleur du disque est en train de mourir.


Il vaut mieux montrer que raconter.

Hors ligne

#5 25-03-2021 21:42:19

tux12
Membre
Lieu : ./
Distrib. : stable
Noyau : celui de la stable
(G)UI : KDE
Inscription : 27-02-2008

Re : Smartmontools - Seek Error Rate élevé

Bonjour,

Pour ce que j'en ai lu ces informations ne sont pas interprétable simplement, elles sont propres au constructeur. D'ou l'intérêt des valeurs normalisées (les colonnes VALUE WORST THRESH) . VALUE = valeur courante, WORST = la plus mauvaise valeur relevée THRES = la valeur minimale au dessous de laquelle rien ne va plus. Ici ces valeurs sont 75, 60 et 30, il n'y a donc aucun risque détecté pour ce paramètre.

Pour ma part je conserve les logs des tests effectués, ce qui permet de se faire une idée de l'évolution de l'état du disque dans le temps.
Par exemple:

grep Seek_Error_Rate /root/smartmon.logs/smart_sda*


[

/root/smartmon.logs/smart_sda_20161017.log:  7 Seek_Error_Rate         0x000f   075   060   030    Pre-fail  Always       -       38096404
/root/smartmon.logs/smart_sda_20161022.log:  7 Seek_Error_Rate         0x000f   075   060   030    Pre-fail  Always       -       38290687
/root/smartmon.logs/smart_sda_20161102.log:  7 Seek_Error_Rate         0x000f   075   060   030    Pre-fail  Always       -       38738298
/root/smartmon.logs/smart_sda_20161109.log:  7 Seek_Error_Rate         0x000f   075   060   030    Pre-fail  Always       -       39004691
/root/smartmon.logs/smart_sda_20161117.log:  7 Seek_Error_Rate         0x000f   075   060   030    Pre-fail  Always       -       39351836
/root/smartmon.logs/smart_sda_20161130.log:  7 Seek_Error_Rate         0x000f   075   060   030    Pre-fail  Always       -       39914595
/root/smartmon.logs/smart_sda_20170115.log:  7 Seek_Error_Rate         0x000f   075   060   030    Pre-fail  Always       -       41411762
/root/smartmon.logs/smart_sda_20170811.log:  7 Seek_Error_Rate         0x000f   076   060   030    Pre-fail  Always       -       47399788
/root/smartmon.logs/smart_sda_20170907.log:  7 Seek_Error_Rate         0x000f   076   060   030    Pre-fail  Always       -       48928353
/root/smartmon.logs/smart_sda_20171030.log:  7 Seek_Error_Rate         0x000f   077   060   030    Pre-fail  Always       -       51526957
/root/smartmon.logs/smart_sda_20180115.log:  7 Seek_Error_Rate         0x000f   077   060   030    Pre-fail  Always       -       55010070
/root/smartmon.logs/smart_sda_20180213.log:  7 Seek_Error_Rate         0x000f   077   060   030    Pre-fail  Always       -       56664969
/root/smartmon.logs/smart_sda_20180314.log:  7 Seek_Error_Rate         0x000f   077   060   030    Pre-fail  Always       -       58414371
/root/smartmon.logs/smart_sda_20180402.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       59514565
/root/smartmon.logs/smart_sda_20180510.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       61757951
/root/smartmon.logs/smart_sda_20180517.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       62189928
/root/smartmon.logs/smart_sda_20180607.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       63698472
/root/smartmon.logs/smart_sda_20180701.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       65421850
/root/smartmon.logs/smart_sda_20180722.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       66652334
/root/smartmon.logs/smart_sda_20180928.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       70648121
/root/smartmon.logs/smart_sda_20181023.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       71978164
/root/smartmon.logs/smart_sda_20181101.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       72524745
/root/smartmon.logs/smart_sda_20181128.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       73712276
/root/smartmon.logs/smart_sda_20181223.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       74785121
/root/smartmon.logs/smart_sda_20190306.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       78246885
/root/smartmon.logs/smart_sda_20190407.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       79502260
/root/smartmon.logs/smart_sda_20190501.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       80645693
/root/smartmon.logs/smart_sda_20190604.log:  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       82095338
/root/smartmon.logs/smart_sda_20190825.log:  7 Seek_Error_Rate         0x000f   079   060   030    Pre-fail  Always       -       85424697
/root/smartmon.logs/smart_sda_20200210.log:  7 Seek_Error_Rate         0x000f   079   060   030    Pre-fail  Always       -       95495352
/root/smartmon.logs/smart_sda_20200303.log:  7 Seek_Error_Rate         0x000f   079   060   030    Pre-fail  Always       -       97778517
/root/smartmon.logs/smart_sda_20200501.log:  7 Seek_Error_Rate         0x000f   080   060   030    Pre-fail  Always       -       103809700
/root/smartmon.logs/smart_sda_20210210.log:  7 Seek_Error_Rate         0x000f   081   060   030    Pre-fail  Always       -       127434936



Pour info le disque est un 320Go Seagate Maxtor DiamondMax qui a dépassé les 21000 heures de fonctionnement. Comme tu peux le constater j'ai largement dépassé les 38 millions en valeur brute mais la progression du paramètre est régulière et ne m'inspire aucune crainte.

Si ça peut aider...

Dernière modification par tux12 (25-03-2021 21:54:53)


Tout est un sauf zéro. - Wau Holland

Hors ligne

#6 26-03-2021 08:37:01

Tawal
Membre
Distrib. : Debian 11 Bullseye
Noyau : Linux 5.10.0-9-amd64
(G)UI : Xfce
Inscription : 25-02-2021

Re : Smartmontools - Seek Error Rate élevé

Merci à vous 2 merci.gif

Pour les error_seek_rate, je ne m'inquiète pas (plus depuis les explications de tux12)

Par contre, pour les erreurs du noyau, dois-je comprendre que ça peut venir de la carte mère ou du disque en lui même ?
Mais je pencherais plutôt pour la CM car même sans disque branché sur ata4, j'ai toujours un erreur kernel du type :

 ata4: softreset failed (device not ready)

Et ce pour les 3 ports concernant les disques dur et lecteur CD/DVD. (ata3, ata4 et ata6, les autres restent tranquilles)
Que ces appareils soient connectés ou pas.
Mais ce n'est peut-être pas relié aux erreurs I/O, qui elles sont plus inquiétantes ... et sont peut-être inhérentes au disque ....

@tux12: C'est une bonne idée que de garder les logs des tests smart. Je vais mettre ça en place pour cet outil et d'autres aussi tant qu'à faire.

Encore merci merci.gif


Comme la science n'est pas infuse, elle se diffuse.
Useless Use of Cat Award
Filenames and Pathnames in Shell: How to do it Correctly
À chaque problème sa solution, à chaque solution son moyen, si pas de moyen, toujours le problème !

Hors ligne

Pied de page des forums