Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).

#1 03-01-2020 20:50:36

sir_siegfrieds
Membre
Inscription : 11-11-2019

Server Debian et Plantage aléatoire

Bonjour,

ne sachant pas ou poster ce topic sachant que le pc incriminé est un petit serveur debian sans interface graphique.
et que ce soucis concerne le disque dur si je ne m'abuse. Je pensais donc que cette section serait la bonne a mon avis.

Cela fait plusieurs temps que mon petit server plante aléatoirement,
parfois cela ne se produit pas avant une bonne semaine, soit cela se produit instantanément ou dans l'heure.

Cette fois-ci la panne a été franche et j'ai pas eu le scrolling infini qui empêche de prendre une capture ou plutôt dans mon cas une photo de mon écran.
Car la panne survient pas forcément lorsque je suis disponible, d'ailleurs l'accès par ssh, et par l'interface web ne fonctionne plus. ( VNC )
En cas de relance du server, aléatoirement cela fonctionne ou plante instantanément.
Ne sachant pas par ou commencer, je venais donc vous poser la question directement ici.

Sachant que c'est un mini pc, ( a peu près comme les nuc intel ).
Que l'Os est sur un SSD.

Voici donc la capture d'écran.

idyb.jpg

Je sais que c'est sur proxmox, mais la base c'est debian. Et j'ai pas de réponse sur le forum de proxmox...

Merci en tout cas pour votre aide.

Hors ligne

#2 03-01-2020 21:00:19

raleur
Membre
Inscription : 03-10-2014

Re : Server Debian et Plantage aléatoire

sir_siegfrieds a écrit :

ne sachant pas ou poster ce topic sachant que le pc incriminé est un petit serveur debian sans interface graphique.
et que ce soucis concerne le disque dur si je ne m'abuse. Je pensais donc que cette section serait la bonne a mon avis.


Ah oui, pour un problème de disque dur il est évident que c'est la section "réseau" qui est appropriée.
(Oui, c'est de l'ironie).

Cette erreur indique un secteur défectueux illisible (media error/UNCorrectable). C'est bien une erreur matérielle du disque dur.
Le secteur 0, c'est le MBR du disque. S'il est illisible c'est tout le disque qui est inutilisable.

Pour un diagnostic SMART :

smartctl -a /dev/sda



1) Sauvegarder ce qui peut l'être et a de l'importance.
2) Si le disque est sous garantie -> SAV
3) Sinon, détecter et tenter de réparer tous les secteurs défectueux avec badblocks et smartctl.
4) Remplacer le disque en cas d'échec.

Dernière modification par raleur (03-01-2020 21:01:51)

Hors ligne

#3 04-01-2020 03:30:27

sir_siegfrieds
Membre
Inscription : 11-11-2019

Re : Server Debian et Plantage aléatoire

Ah mes doutes seraient confirmés ...
Je lance la commande et je te copy paste ça dessuite smile

smartctl -a /dev/sda



smartctl 7.0 2018-12-30 r4883 [x86_64-linux-5.0.15-1-pve] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     LITEON CV6-8Q128
Serial Number:    002746100CEE
LU WWN Device Id: 5 002303 1010613b2
Firmware Version: 2871301
User Capacity:    128,035,676,160 bytes [128 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      M.2
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sat Jan  4 03:28:23 2020 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    2) seconds.
Offline data collection
capabilities:                    (0x11) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  10) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       0
  5 Reallocated_Sector_Ct   0x0003   100   100   000    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0002   100   100   000    Old_age   Always       -       2812
 12 Power_Cycle_Count       0x0003   100   100   000    Pre-fail  Always       -       56
170 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       55
171 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       0
172 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       0
173 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       15
174 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       33
175 Program_Fail_Count_Chip 0x0003   100   100   000    Pre-fail  Always       -       0
176 Erase_Fail_Count_Chip   0x0003   100   100   000    Pre-fail  Always       -       0
178 Used_Rsvd_Blk_Cnt_Chip  0x0003   100   100   000    Pre-fail  Always       -       55
179 Used_Rsvd_Blk_Cnt_Tot   0x0003   100   100   000    Pre-fail  Always       -       55
180 Unused_Rsvd_Blk_Cnt_Tot 0x0033   100   100   005    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0003   100   100   000    Pre-fail  Always       -       0
182 Erase_Fail_Count_Total  0x0003   100   100   000    Pre-fail  Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       2
195 Hardware_ECC_Recovered  0x0003   100   100   000    Pre-fail  Always       -       0
199 UDMA_CRC_Error_Count    0x0003   100   100   000    Pre-fail  Always       -       0
232 Available_Reservd_Space 0x0003   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0003   100   100   000    Pre-fail  Always       -       63678
241 Total_LBAs_Written      0x0003   100   100   000    Pre-fail  Always       -       43818
242 Total_LBAs_Read         0x0003   100   100   000    Pre-fail  Always       -       45659

SMART Error Log Version: 1
Warning: ATA error count 0 inconsistent with error log pointer 1

ATA Error Count: 0
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 0 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 ec 00 00 00 00 00  Device Fault

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 00 00 00 00 00 00      00:00:00.000  READ DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%        73         -

Selective Self-tests/Logging not supported



Je remarque j'ai aussi souvent ce genre d'erreur...

Jan 04 03:25:20 proxmox postfix/smtp[1169]: 9CCE122ACE: to=<sxxxxx@hotmail.com>, relay=none, delay=52636, delays=52572/0.01/65/0, dsn=4.4.1, status=deferred (connect to hotmail-com.olc.protection.outlook.com[104.47.38.33]:25: Connection timed out)

Une question a part aussi, le nombre de ban sur un jail ( fail2ban ) est de 500 max ? Car j'ai l'impression que je suis arrivé au max ça s'incrémente plus ...

Edit : Pour Fail2ban j'ai ma réponse au retour sur le réseau pour test la commande 5 de plus on été bannis ...
Pense tu que Fail2ban est une protection suffisante pour un début ?

Dernière modification par sir_siegfrieds (04-01-2020 11:04:29)

Hors ligne

#4 04-01-2020 11:57:13

raleur
Membre
Inscription : 03-10-2014

Re : Server Debian et Plantage aléatoire

Un problème, un sujet.

/dev/sda n'est pas le disque dur mais le SSD. Je ne sais pas bien interpréter les attributs SMART spécifiques des SSD.
badblocks devrait confirmer la présence de secteurs défectueux sur l'un ou l'autre. Tu peux aussi lancer smartctl -a sur le disque (qui doit être /dev/sdb).

Dernière modification par raleur (04-01-2020 11:57:54)

Hors ligne

#5 04-01-2020 17:37:39

sir_siegfrieds
Membre
Inscription : 11-11-2019

Re : Server Debian et Plantage aléatoire

 smartctl -a /dev/sdb


root@proxmox:~#
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-5.0.15-1-pve] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

Smartctl open device: /dev/sdb failed: No such device



Pas de device sur sdb

Pour infos ce nuc, n'est composé que d'un SSD, et d'un port M.2 mais qui est libre.

Pour infos j'ai test la commande badblocks /dev/sda

cela fait scroll une serie de chiffre que je ne sais interprété.
Si je fait badblocks -w /dev/sda
le disque est en cours d'utilisation donc je peux pas ...

Dernière modification par sir_siegfrieds (04-01-2020 17:46:02)

Hors ligne

#6 04-01-2020 23:30:14

raleur
Membre
Inscription : 03-10-2014

Re : Server Debian et Plantage aléatoire

sir_siegfrieds a écrit :

Pour infos ce nuc, n'est composé que d'un SSD, et d'un port M.2 mais qui est libre.


Alors pourquoi as-tu parlé d'un disque dur ?

sir_siegfrieds a écrit :

Pour infos j'ai test la commande badblocks /dev/sda
cela fait scroll une serie de chiffre que je ne sais interprété.


Ce sont les numéros des blocs illisibles détectés. J'en déduis qu'il y en a un grand nombre.

sir_siegfrieds a écrit :

Si je fait badblocks -w /dev/sda
le disque est en cours d'utilisation donc je peux pas


Heureusement pour toi, car cette commande aurait effacé tout le contenu du SSD. Si c'est vraiment ce que tu veux faire, il faut la lancer depuis un autre système, par exemple un système live ou l'installateur Debian.

Hors ligne

#7 05-01-2020 16:52:15

sir_siegfrieds
Membre
Inscription : 11-11-2019

Re : Server Debian et Plantage aléatoire

Merci des infos,
J'ai manqué de précision en parlant de disque dur.
En fait le pc est connecté avec un disque réseau ( Qnap ), qui sers de sauvegarde hebdomadaire.

Je pensais que la commande montrait le nombre de secteurs défectueux. Je ne savais pas que les SSD pouvais avoir des secteurs défectueux. Quelles commande puis-je effectuer pour démontrer au SAV que mon disque dur est HS. Il est de janvier dernier le PC, donc je pense pouvoir faire jouer la garantie.

Le principe de badblockS c'est d'ignorer certains secteurs du disque ?
Cela prolongerait t'il vraiment la vie du disque ? Car sinon je récupère mes backup journalier, je remplace le SSD par un disque dur ( réellement un disque dur ) et je réinstalle puis réinstalle mes backups.

( Ce pc sers de mini serveur avec des machines virtuelles Jeedom, Plex ) . Réutiliser des backups n'est pas risqué pour le futur disque, dans le sens où les secteurs défectueux ne seront pas pris en compte ?

Désolé si mes questions sont bêtes, mais j'essaie de comprendre ce que je fais .

Merci en tous cas pour tes réponses, bon weekend smile

Hors ligne

#8 05-01-2020 17:21:43

raleur
Membre
Inscription : 03-10-2014

Re : Server Debian et Plantage aléatoire

sir_siegfrieds a écrit :

Quelles commande puis-je effectuer pour démontrer au SAV que mon disque dur est HS


Disque dur ou SSD ?
Si tu parles du SAV du fabricant du disque, en général ils exigent de le tester avec leur utilitaire qui doit renvoyer un code RMA pour que le disque soit pris en charge. Si tu parles du SAV de l'ordinateur, le BIOS a peut-être un outil de test intégré. Sinon, un rapport SMART montrant des erreurs, mais celui que tu as fourni n'est pas explicite. Il sera peut-être plus fourni après le passage de badblocks.

sir_siegfrieds a écrit :

Le principe de badblockS c'est d'ignorer certains secteurs du disque ?


Non, pas du tout. badblocks teste les secteurs, c'est tout. Ce qu'on fait du résultat ne le concerne pas. Tu confonds peut-être avec l'option -c de mkfs ou fsck qui fait appel à badblocks pour détecter les secteurs défectueux et les marque comme à ne pas utiliser. Ça ne prolonge pas la vie du disque, ça permet seulement de continuer à l'utiliser en évitant d'écrire dans les secteurs défectueux, en supposant que de nouveaux n'apparaissent pas.

sir_siegfrieds a écrit :

Réutiliser des backups n'est pas risqué pour le futur disque, dans le sens où les secteurs défectueux ne seront pas pris en compte ?


Je ne vois pas le rapport. Pas pris en compte par quoi ?

Hors ligne

#9 05-01-2020 18:05:03

sir_siegfrieds
Membre
Inscription : 11-11-2019

Re : Server Debian et Plantage aléatoire

Venant de Windows, je connaissais fdisk.
Et j'ai par le passé utiliser fsck sur une ancienne distribution.

J'ai encore mélanger dans le pc c'est un SSD, et en stock j'ai un vieux disque dur qui est tout a fait fonctionnel. Ce disque dur, je pensais l'utiliser en attendant le retour du SAV.

Pour la troisième partie, je pensais que lors de la création du backup, les défauts disques étaient enregistrer dans celle-ci. Mais au vue de ta réponse, je pense que c'est non roll

Donc a cette étape que dois-je faire avant de contacter le sav de la plateforme de vente en ligne ? Sachant que c'est Banggood roll.

Merci en tous cas j'en apprend pas mal grâce a toi.

Bonne journée

Hors ligne

#10 05-01-2020 18:11:22

raleur
Membre
Inscription : 03-10-2014

Re : Server Debian et Plantage aléatoire

Relance smartctl -a pour voir s'il y a du changement.

Hors ligne

#11 05-01-2020 18:24:05

sir_siegfrieds
Membre
Inscription : 11-11-2019

Re : Server Debian et Plantage aléatoire

Je ne suis pas a mon domicile, je ne rentre que demain.

Je ferais la manip et t'enverrai le feedback demain.

Merci bonne soirée

Hors ligne

#12 06-01-2020 15:45:44

sir_siegfrieds
Membre
Inscription : 11-11-2019

Re : Server Debian et Plantage aléatoire

Bonjour voici les nouvelles du jour ...

smartctl -a /dev/sda



smartctl 7.0 2018-12-30 r4883 [x86_64-linux-5.0.15-1-pve] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     LITEON CV6-8Q128
Serial Number:    002746100CEE
LU WWN Device Id: 5 002303 1010613b2
Firmware Version: 2871301
User Capacity:    128,035,676,160 bytes [128 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      M.2
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Jan  6 15:42:40 2020 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    2) seconds.
Offline data collection
capabilities:                    (0x11) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  10) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       0
  5 Reallocated_Sector_Ct   0x0003   100   100   000    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0002   100   100   000    Old_age   Always       -       2821
 12 Power_Cycle_Count       0x0003   100   100   000    Pre-fail  Always       -       59
170 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       55
171 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       0
172 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       0
173 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       15
174 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       36
175 Program_Fail_Count_Chip 0x0003   100   100   000    Pre-fail  Always       -       0
176 Erase_Fail_Count_Chip   0x0003   100   100   000    Pre-fail  Always       -       0
178 Used_Rsvd_Blk_Cnt_Chip  0x0003   100   100   000    Pre-fail  Always       -       55
179 Used_Rsvd_Blk_Cnt_Tot   0x0003   100   100   000    Pre-fail  Always       -       55
180 Unused_Rsvd_Blk_Cnt_Tot 0x0033   100   100   005    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0003   100   100   000    Pre-fail  Always       -       0
182 Erase_Fail_Count_Total  0x0003   100   100   000    Pre-fail  Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       2
195 Hardware_ECC_Recovered  0x0003   100   100   000    Pre-fail  Always       -       0
199 UDMA_CRC_Error_Count    0x0003   100   100   000    Pre-fail  Always       -       0
232 Available_Reservd_Space 0x0003   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0003   100   100   000    Pre-fail  Always       -       63705
241 Total_LBAs_Written      0x0003   100   100   000    Pre-fail  Always       -       43841
242 Total_LBAs_Read         0x0003   100   100   000    Pre-fail  Always       -       45834

SMART Error Log Version: 1
Warning: ATA error count 0 inconsistent with error log pointer 1

ATA Error Count: 0
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 0 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 ec 00 00 00 00 00  Device Fault

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 00 00 00 00 00 00      00:00:00.000  READ DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%        73         -

Selective Self-tests/Logging not supported

Hors ligne

#13 06-01-2020 16:17:25

raleur
Membre
Inscription : 03-10-2014

Re : Server Debian et Plantage aléatoire

Aucun changement majeur visible. J'ai regardé la définition des attributs inconnus, aucun n'est lié à la présence de secteurs défectueux. Ce rapport ne suffira pas à justifier un retour en garantie. Tu peux essayer de lancer un test long.

smartctl -t long /dev/sda

Hors ligne

#14 06-01-2020 16:21:23

sir_siegfrieds
Membre
Inscription : 11-11-2019

Re : Server Debian et Plantage aléatoire

 


smartctl -t long /dev/sda
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-5.0.15-1-pve] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Extended self-test routine immediately in off-line mode".
Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 10 minutes for test to complete.
Test will complete after Mon Jan  6 16:29:54 2020

Use smartctl -X to abort test.



Ce que je comprend pas c'est que la commande se termine sans rien. Et ça parle de la faire offline...

Dernière modification par sir_siegfrieds (06-01-2020 17:12:08)

Hors ligne

#15 06-01-2020 17:24:10

raleur
Membre
Inscription : 03-10-2014

Re : Server Debian et Plantage aléatoire

Comme indiqué, il faut attendre 10 minutes que le test se termine (ça me paraît court pour un auto-test "long", mais je n'ai pas l'habitude des SSD) puis relancer smartctl -a pour voir le résultat.

Hors ligne

#16 06-01-2020 18:07:48

sir_siegfrieds
Membre
Inscription : 11-11-2019

Re : Server Debian et Plantage aléatoire

Ok d'accord j'en avais saisie la subtilité, je pensais qu'un des prérequis n'était pas accomplis avant de le faire.

Voici le resultat


smartctl -a /dev/sda
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-5.0.15-1-pve] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     LITEON CV6-8Q128
Serial Number:    002746100CEE
LU WWN Device Id: 5 002303 1010613b2
Firmware Version: 2871301
User Capacity:    128,035,676,160 bytes [128 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      M.2
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Jan  6 18:06:07 2020 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    2) seconds.
Offline data collection
capabilities:                    (0x11) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  10) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       0
  5 Reallocated_Sector_Ct   0x0003   100   100   000    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0002   100   100   000    Old_age   Always       -       2822
 12 Power_Cycle_Count       0x0003   100   100   000    Pre-fail  Always       -       59
170 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       55
171 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       0
172 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       0
173 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       15
174 Unknown_Attribute       0x0003   100   100   000    Pre-fail  Always       -       36
175 Program_Fail_Count_Chip 0x0003   100   100   000    Pre-fail  Always       -       0
176 Erase_Fail_Count_Chip   0x0003   100   100   000    Pre-fail  Always       -       0
178 Used_Rsvd_Blk_Cnt_Chip  0x0003   100   100   000    Pre-fail  Always       -       55
179 Used_Rsvd_Blk_Cnt_Tot   0x0003   100   100   000    Pre-fail  Always       -       55
180 Unused_Rsvd_Blk_Cnt_Tot 0x0033   100   100   005    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0003   100   100   000    Pre-fail  Always       -       0
182 Erase_Fail_Count_Total  0x0003   100   100   000    Pre-fail  Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       2
195 Hardware_ECC_Recovered  0x0003   100   100   000    Pre-fail  Always       -       0
199 UDMA_CRC_Error_Count    0x0003   100   100   000    Pre-fail  Always       -       0
232 Available_Reservd_Space 0x0003   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0003   100   100   000    Pre-fail  Always       -       63718
241 Total_LBAs_Written      0x0003   100   100   000    Pre-fail  Always       -       43854
242 Total_LBAs_Read         0x0003   100   100   000    Pre-fail  Always       -       45874

SMART Error Log Version: 1
Warning: ATA error count 0 inconsistent with error log pointer 2

ATA Error Count: 0
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error -1 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 ec 00 00 00 00 00  Device Fault

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 00 00 00 00 00 00      00:00:00.000  READ DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%         6         -
# 2  Short offline       Completed without error       00%        73         -

Selective Self-tests/Logging not supported

Hors ligne

#17 07-01-2020 00:41:06

raleur
Membre
Inscription : 03-10-2014

Re : Server Debian et Plantage aléatoire

Apparemment l'autotest n'a rien trouvé. Mais les données SMART de ce SSD contiennent des incohérences, je ne lui ferais pas confiance.

Hors ligne

#18 07-01-2020 17:00:32

sir_siegfrieds
Membre
Inscription : 11-11-2019

Re : Server Debian et Plantage aléatoire

Ok d'accord.
Donc comment aborder le soucis avec le SAV.

J'en conclus que je vais devoir trouver un SSD a pas trop cher pour le remplacer sachant que 240go doit être largement suffisant.
Je n'utilise que peu d'espace pour les machines virtuelles dessus. Le reste étant stocker sur mon NAS ( backup, et données )

Hors ligne

#19 08-01-2020 15:51:43

raleur
Membre
Inscription : 03-10-2014

Re : Server Debian et Plantage aléatoire

sir_siegfrieds a écrit :

Donc comment aborder le soucis avec le SAV.


Question épineuse. Tu peux t'appuyer sur les messages d'erreur du noyau comme celui dans la capture d'écran jointe à ton premier message en insistant bien sur "media error" (erreur physique du support d'enregistrement), et sur le résultat de badblocks.

Hors ligne

#20 09-01-2020 17:03:13

sir_siegfrieds
Membre
Inscription : 11-11-2019

Re : Server Debian et Plantage aléatoire

Merci de tes conseils,
jvais testé une installation sur disque dur SATA III.
si cela ne se produit plus, je prendrais un ssd en remplacement de ce dernier ( 240go me suffisent, c'est pas non plus hors de prix )

Hors ligne

Pied de page des forums