Probleme disque dur aléatoire

Résolu/Fermé
teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020 - 5 juil. 2015 à 19:30
teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020 - 20 sept. 2015 à 13:38
Bonjour,

Voilà deux fois que mon PC s'éteint brutalement et un peu aléatoirement.

Ce PC tourne sous Linux. Les deux fois où le PC s' est éteint, le processus de vérification des disques (commande fsck (équivalente à scandisk sous Windows) lancée automatiquement à intervalle régulier) était initié mais n'a pu aller au bout. Par contre, quand cette vérification n'est pas programmée, aucun problème de démarrage.

Voici un petit historique :

1) La première fois, après deux extinctions brutales, j'ai redémarré sur Debian 8 (au lieu de Mageia 4) immédiatement et sans problème, y-compris la procédure de vérification des partitions. J'en ai profité pour vérifier la partition Mageia qui était saine.

2) Redémarrage immédiat sous Mageia et sans problème.

3) Une jolie suite de démarrages réussis s'ensuit pendant plusieurs jours.

4) Rebelote ! Mageia 5 (5 au lieu de 4 parce que j'ai upgradé entretemps sans problème) démarre, commence sa procédure programmée fsck et plante. Machine éteinte !

5) Je redémarre sur PartedMagic (live CD) afin de pouvoir lancer un processus de vérification de chaque partitions puisque aucunes ne seront montées et utilisées.
La commande fsck (sous PartedMagic en mode Live CD) n'a rien révélé. Toutes les partitions sont saines. Absolument toutes.

6) Pensant alors à un problème plus physique, j'ai pensé aux données SMART. Sous Linux, ces données SMART peuvent être relevées avec l'application gsmartcontrol. Je joint en fin de message le fichier texte résultat (assez pénible) que je ne sais pas interpréter.

Ce disque dur est-il en train de mourir ?

smartctl 6.3 2014-07-26 r3976 [x86_64-linux-3.19.8-desktop-3.mga5] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Green (AF, SATA 6Gb/s)
Device Model: WDC WD20EZRX-00DC0B0
Serial Number: WD-WCC300854383
LU WWN Device Id: 5 0014ee 208f91f61
Firmware Version: 80.00A80
User Capacity: 2 000 398 934 016 bytes [2,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sat Jul 4 01:57:12 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (27600) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 279) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x70b5) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 177 169 021 Pre-fail Always - 4133
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 485
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 095 095 000 Old_age Always - 4056
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 481
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 7
193 Load_Cycle_Count 0x0032 195 195 000 Old_age Always - 15379
194 Temperature_Celsius 0x0022 104 100 000 Old_age Always - 43
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

SMART Error Log Version: 1
ATA Error Count: 26143 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 26143 occurred at disk power-on lifetime: 75 hours (3 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 02 00 00 00 a0 Device Fault; Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 10 02 00 00 00 a0 00 03:58:36.742 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 00 03:58:36.741 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 03:58:36.741 SET FEATURES [Set transfer mode]
ef 10 02 00 00 00 a0 00 03:58:36.741 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 00 03:58:36.741 IDENTIFY DEVICE

Error 26142 occurred at disk power-on lifetime: 75 hours (3 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 46 00 00 00 a0 Device Fault; Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 46 00 00 00 a0 00 03:58:36.741 SET FEATURES [Set transfer mode]
ef 10 02 00 00 00 a0 00 03:58:36.741 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 00 03:58:36.741 IDENTIFY DEVICE
c8 00 08 00 00 00 e0 00 03:58:36.740 READ DMA
ef 10 02 00 00 00 a0 00 03:58:36.740 SET FEATURES [Enable SATA feature]

Error 26141 occurred at disk power-on lifetime: 75 hours (3 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 02 00 00 00 a0 Device Fault; Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 10 02 00 00 00 a0 00 03:58:36.741 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 00 03:58:36.741 IDENTIFY DEVICE
c8 00 08 00 00 00 e0 00 03:58:36.740 READ DMA
ef 10 02 00 00 00 a0 00 03:58:36.740 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 00 03:58:36.740 IDENTIFY DEVICE

Error 26140 occurred at disk power-on lifetime: 75 hours (3 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 08 00 00 00 e0 Device Fault; Error: ABRT 8 sectors at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 00 00 00 e0 00 03:58:36.740 READ DMA
ef 10 02 00 00 00 a0 00 03:58:36.740 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 00 03:58:36.740 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 03:58:36.740 SET FEATURES [Set transfer mode]
ef 10 02 00 00 00 a0 00 03:58:36.740 SET FEATURES [Enable SATA feature]

Error 26139 occurred at disk power-on lifetime: 75 hours (3 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 02 00 00 00 a0 Device Fault; Error: ABRT

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 10 02 00 00 00 a0 00 03:58:36.740 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 00 03:58:36.740 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 03:58:36.740 SET FEATURES [Set transfer mode]
ef 10 02 00 00 00 a0 00 03:58:36.740 SET FEATURES [Enable SATA feature]
ec 00 00 00 00 00 a0 00 03:58:36.738 IDENTIFY DEVICE

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 1998 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


Merci par avance



A voir également:

8 réponses

Claude Lachance Messages postés 33486 Date d'inscription lundi 15 janvier 2007 Statut Contributeur Dernière intervention 1 février 2024 1 023
5 juil. 2015 à 19:47
Bonjour Sieur Teutates qu'on voit bien peu ici de nos jours

Ne serait-ce pas simplement un problème de surchauffe dû à une accumulation de poussière, au mauvais fonctionnement d'un ventilateur voire à l'érosion de la pâte thermique ? Le fait que ça se produise lors d'activités un peu lourdes m'inviterais à vérifier d'abord cela, avant de m'attaquer aux disques ou à la mémoire-vive !

Cordialement !
0
teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020 3 585
5 juil. 2015 à 20:56
Effectivement, des mois que je n'étais pas venus, voire des années :-()

Pour la poussière, c'est un aspect sur lequel je suis très vigilant. Je dépoussière à la bombe d'air comprimé très souvent. J'ai payé assez cher ma configuration pour ne pas la laisser s'abimer. Et, au travail, je vois beaucoup trop de tours de PC remplies de gros moutons de poussières ; des PC que je jette puisque c'est une partie de mon travail (gestion des déchets).

C'est cependant une excellente suggestion. Trop tard pour ce soir mais je vais dépoussièrer à nouveau demain.

Pour autant, je ne comprends pas vraiment que ce problème tombe juste sur ce disque. En vérité, la tour est équipée de plusieurs disques durs :
  • SDA : Vélociraptor : pour les OS secondaires (de tests, + Windows)
  • SDB : SSD : Mageia 5 : OS principal
  • SDC : données utilisateurs (/home et "Mes documents")
  • SDD : vidéo et musique : le disque à problème
  • SDE : dédié entièrement à la virtualisation


Or je virtualise très souvent et j'aurais pensé que c'est ce disque dédié à la virtualisation qui aurait alors du chauffer.

@+ ;-)
0
Claude Lachance Messages postés 33486 Date d'inscription lundi 15 janvier 2007 Statut Contributeur Dernière intervention 1 février 2024 1 023 > teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020
6 juil. 2015 à 00:27
Mouais ! ... Ça m'étonnerais que le disque, quel qu'il soit, chauffe lui-même, à moins d'un raid avec des disques plus puissants. A priori, je pense plus au processeur lui-même !

En l'absence de message d'erreurs, c'est souvent le cas ! Mais, bon, je ne suis pas un pro. Je n'engage que ma pauvre expérience.

Autrement, faut y aller avec la technique pièce par pièce. J'imagine que tu connais mais je colle ici mon fichier tout fait, lui-même une réécriture d'un texte dudit Michel Latouffe. Il y a probablement des trucs non pertinents là-dedans. À toi te voir !

> On garde évidemment le processeur en place, son ventilateur connecté sur cpu fan
> L'alimentation reste connectée à la carte mère
>Laisser une seul barrette de mémoire sur le port dimm 1
> la carte graphique et l'écran
> le clavier
> les connections du bas (pw, reset,...)


On enlève et débranche TOUT LE RESTE de la carte-mère et de l'alimentation :
> carte pci (port blanc)
> disque dur , cd/dvd/rom/ram/rw
> tous les usb (sauf le clavier s'il est usb; le changer de port si ça plante
> le réseau
> et SURTOUT les nappes ide et les connections Sata (celles qui relient les disques durs, cd/dvd/rw/ram, a la carte-mère).
À ce stade-ci, si rien ne fonctionne, l'alimentation ou la carte-mère sont probablement défectueuses.
tester une alimentation

Mais si la ça fonctionne, on teste les rams (les barrettes), d'abord 1 seule dans le slot dimm 1, puis alternativement dans les ports suivants. Ensuite, on teste 2 barrettes (en dual channel, ne pas oublier de mettre les barrettes identiques dans des ports de même couleur)

Ensuite vient le tour d'un disque dur (celui avec le système d'exploitation (Windows ou Linux par exemple)
Ensuite l'autre disque dur si il y en plus d'un ;-)


Après on réinsère les cartes pci.
Puis vient le tour des cd/dvd...
Et enfin le tour des usb, lan...

Bonne chance!
0
teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020 3 585
Modifié par teutates le 6/07/2015 à 21:54
J'ai dépoussiéré, par acquis de conscience, avant de démarrer ce soir. Pas de mouton de poussière présent même s'il y aura toujours un minimum de poussière malheureusement. Mais aucun amas repéré. Et quand je parle de dépoussiérage, c'est évidement toutes les parties, y compris les recoins. Les disques durs, comme la mémoire RAM comme la carte vidéo, l'alimentation, la carte mère, le CPU et sa ventilation, jusqu'aux ouïes d'extraction. Bref, tout.

Un redémarrage nickel.

Cependant, en rouvrant gsmartcontrol depuis Mageia 5, toujours sur ce même disque SATA, je relève l'erreur suivante :
ATA Error Count: 26143 (Note: Usually only the last five errors are stored.)


Et en dessous une indication plus complète :
Complete error log:

SMART Error Log Version: 1
ATA Error Count: 26143 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.


Cette indication est-elle plus claire que l'obscur fichier texte ?

Toco y se gausos !!!
0
Claude Lachance Messages postés 33486 Date d'inscription lundi 15 janvier 2007 Statut Contributeur Dernière intervention 1 février 2024 1 023
7 juil. 2015 à 00:24
Non ! Désolé ! C'est obscur pour moi ! Problème de contrôleur SATA ?


edit : Quand je regarde ce qui se dit ailleurs, certains parlent de problème de connexion, si ça peut aider. Je déconnecterais tous les SATA, sauf celui que je veux utiliser si j'étais toi, puis, si le problème disparais, les reconnecterais un à un jusqu'à identification du coupable.
À+
Bonne chance !
0
teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020 3 585
7 juil. 2015 à 22:18
A priori, le disque se dégrade et des secteurs deviennent défectueux. J'avais lancé un sujet parallèle sur Assembler-PC :
https://forum.assembler-pc.fr//troubleshooting/probleme-disque-dur-aleatoire/

pmloikju me suggère de désactiver les blocs problématiques selon la procédure suivante :
1) Démarrer sur LiveCD (pour éviter que les disques soient montés).
2) Détecter le blocks défectueux et les mettre dans un fichier.
badblocks -v /dev/sda > deadblock.dump
3) Les désactiver:
e2fsck -l deadblock.dump /dev/sda

Je termine ma sauvegarde sur un autre disque dur puis je lancerai l'opération.

Bien qu'il faudrait aussi que je vérifie du côté de la garantie du disque dur.
0
Claude Lachance Messages postés 33486 Date d'inscription lundi 15 janvier 2007 Statut Contributeur Dernière intervention 1 février 2024 1 023
7 juil. 2015 à 22:25
Oh ! Fort bien ! Mais ne s'agit-il pas d'un disque non système ? C'est intriguant, non ? Mais pourquoi pas ! :-) A+
0
teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020 3 585 > Claude Lachance Messages postés 33486 Date d'inscription lundi 15 janvier 2007 Statut Contributeur Dernière intervention 1 février 2024
7 juil. 2015 à 22:37
C'est un disque de données que mon système monte automatiquement. Je peux évidemment le démonter pour faire la manipulation directement depuis mon système Linux principal.
0
noctambule28 Messages postés 31791 Date d'inscription samedi 12 mai 2007 Statut Webmaster Dernière intervention 13 février 2022 2 858
8 juil. 2015 à 03:36
Bonsoir, M_Teutates_le revoila

Ca pourrait être très intéressant de savoir comment se passe les garanties de disque.
Je voudrais réagir sur une chose : tu fais des fsck sur ton SSD aussi ? Quand j'en ai installé un, j'ai cru comprendre que c'était une chose à ne pas faire (mais c'est un peu HS).

Quant à des(un) disques qui lachent, surprenant pour des dd de "musiques/vidéo". (sauf s'ils ont servi avant).

Tu as essayé ta config avec un DD en moins (sans retirer celui qui semble poser pb) ?
Tu as passé testdisk sur ton dd ? (c'est un champion pour te dire ce qu'il pense du dd)

Tu as beau temps dans le sud ?
;-)



0
teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020 3 585
8 juil. 2015 à 18:31
Bonjour noctambule28,

Rhaa, voui, des années que je ne montrais plus le museau :-()

Le contrôle fsck est programmé automatiquement tous les 20 montages. Il est aussi possible de modifier ce laps de temps. Voir mes notes :
http://par-teutates.blogspot.com/2014/01/verification-des-disques-sous-gnulinux.html

La commande est la suivante :
# tune2fs -c 20 /dev/sda3
Ici tous les 20 montages sur SDA3

Euh, oui, le contrôle fsck est aussi effectué sur le SSD (SDB chez moi). Tous les 20 montages.

D'autre part, ce disque qui pose problème est un classique disque dur à plateau Western Digital Caviar Green 2To. C'est un disque neuf en Ext3 où je ne met que ma musique et de la vidéo. Un disque qui ne subit finalement pas un nombre astronomique d'opérations d'écritures / effacements. A priori, pas besoin de testdisk puisque je parviens encore à tout récupérer.

Pour la garantie, je l'ai acheté le 19/09/2013 et le disque est garanti 2 ans. .... Put' ! Fait vraiment me dépêcher !!! Fissa fissa !!!!

Beau temps dans mon Ariège ?! Si je te dis que je suis payé pour bronzer et cramer ?! Et c'est quasiment vrai puisque je travaille tout le temps dehors, quel que soit le temps. Vivement la neige (mais voui !). Je crame alors que j'ai des difficultés avec la chaleur. Vendredi dernier, je crois avoir frôlé l'insolation, avec mes migraines, bien que je rentrais régulièrement me rafraichir et boire. Et aujourd'hui, de la bruine pour changer et rafraichir.
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020 3 585
Modifié par teutates le 9/07/2015 à 22:03
Du neuf.

1) J'ai fini ma récupération de données sur un disque dur Seagate Barracuda 2 To que je gardais en réserve. Je l'ai vérifié auparavant avec gsmartcontrol et il est sain.

2) J'ai démonté le WD Green à problème pour le remplacer par le Seagate Barracuda.

3) Comme ce disque est automonté systématiquement dans tous mes systèmes principal (Mageia 5) et alternatifs (Fedora 22, Debian 8 et Manjaro (que j'ai foiré)), j'ai démarré sur PartedMagic pour modifier chaque fstab afin de modifier la valeur UUID par celle du nouveau disque.

4) J'ai démarré (correctement) sur Mageia et j'ai lancé l'opération pour détecter les blocks défectueux et les mettre dans un fichier. A savoir (sous root) :
badblocks -v /dev/sdh > deadblock.dump
Par contre, avec un disque de 2 To, l'opération s'avère vachement longue. Voilà 2h30 qu'elle est lancée et pas achevée. Si elle n'est pas terminée ce soir, je devrais abandonner pour relancer l'opération ce samedi.

5) La garantie ? Le disque est garanti 2 ans et je l'ai acheté (chez Materiel.net) le 19/09/2013. Je viens donc de contacter le fabricant pour faire jouer immédiatement cette garantie. A noter que c'est Materiel.net qui renvoie sur WesternDigital. Le système est simple. Une inscription gratuite sur le site WD. On entre le numéro de série du disque pour vérifier la validité de la garantie. Et puisqu'il me reste (ce soir) 72 jours de garantie, je valide un retour RMA avec comme cause l'erreur SMART. Dès qu'ils auront reçu le disque, ils m'en enverront un autre.

Toco y se gausos !!!
0
teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020 3 585
14 juil. 2015 à 23:06
Du nouveau :

1) J'ai renvoyé au fabricant le disque dur ayant des erreurs SMART.

2) Ce disque dur problématique (SDE1) a été remplacé par un autre. Il va de soi que j'ai auparavant vérifié l'état du nouveau disque et ses données SMART sont excellentes.

3) La machine a démarré correctement plusieurs fois.

4) Pourtant, le démarrage s'est mal passé aujourd'hui !
  • En effet, un contrôle fsck était obligatoire sur deux disques (SDD1 et SDF1) car ils ont été montés déjà 20 fois.
  • Donc, au démarrage de Mageia 5 (à jour), fsck se lance sur le premier disque dur et plante après, environ, 33% puis la machine s'éteint.
  • Je redémarre un nouvelle fois avec le même échec. A vrai dire, je m'y attendais mais j'espérais faire une photo de l'écran. Cependant, cette photo ne révèle rien : ni fichier journal, ni indication quelconque d'un problème.
  • Je redémarre sur PartedMagic en mode LiveCD et je lance plusieurs contrôles :

-> contrôles fsck de toutes les partitions, y compris SDD1 et SDF1 : pas de problème
-> relevé de nouvelles données SMART (gsmartcontrol) : aucun problème
  • Je redémarre sur memtest86 (sait-on jamais). Pas de problème .... bien que vue la longueur de l'opération je ne sois pas allé au bout. Et à vrai dire, je compte relancer ce test un matin (à cause de sa durée) mais quand il fera (si possible) un peu moins chaud.


En résumé :
  • La tour est propre, sans poussière, partout.
  • Le problème ne survient que lorsqu'il faut lancer le contrôle fsck depuis le système d'exploitation.
  • Ce même problème n'apparait pas lorsque le contrôle fsck est lancé en mode LiveCD depuis PartedMagic.


Une piste à suivre : démarrer plusieurs fois Debian 8 jusqu'à obtenir la nécessité du contrôle fsck dans le but de comparer.
0
teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020 3 585
26 août 2015 à 14:36
Je confirme le bug du côté de Mageia.

Pour rappel, mon système est multi-boot :
  • SDA2 : Mageia 5 Cauldron (version instable de développement)
  • SDA3 : Fedora 22
  • SDA5 : Debian 8.1
  • SDB1 : Mageia 5 (version stable - système principal)


Je précise aussi que, quel que soit le système démarré, ce sont systématiquement les mêmes partitions qui sont montées. Par conséquent, chaque démarrage d'un quelconque système incrémente le compteur fsck à l'identique.

Si le contrôle fsck se fait sous Mageia 5 (lorsque programmé), c'est le plantage assuré. Actuellement, le résultat est le même avec Mageia 5 SDB1 (SSD) et Mageia 5 Cauldron (SDA2 - Velociraptor) puisque les deux versions sont encore identiques.

Par contre, aucun problème avec le même contrôle fsck sous Debian et Fedora.

J'en suis à pister le moment où un nouveau contrôle fsck devra être effectué pour démarrer sur Debian ou Fedora. Et j'attends aussi la montée en développement de Cauldron pour tester de ce côté.
0
teutates Messages postés 19624 Date d'inscription vendredi 28 décembre 2001 Statut Modérateur Dernière intervention 2 janvier 2020 3 585
20 sept. 2015 à 13:38
Du nouveau :

Pour information, j'ai été amené à installer dernièrement une version minimale de Mageia 5 pour régler un autre problème. Ce matin, nouveau contrôle fsck obligatoire. Je redémarre donc sur cette toute fraîche installation Mageia 5 minimale qui me débute le contrôle fsck puis ..... plante comme les autres installations Mageia 5 plus ancienne et complète.

Je rappelle que, même si ces contrôle fsck portent sur de grandes partitions (2 To, ce qui est long à traiter), ce même contrôle ne pose strictement aucun problème avec Debian 8.2 et Fedora 22. Ca bugge chez Mageia ?!
0