Wie überprüfe ich meine Festplatte mit Smartmontools auf Fehler (unter Linux)?

A) Smartmontools installieren

Sollten Sie sich nicht sicher sein, ob Ihr Benutzer über die notwendigen Rechte verfügt, können Sie zu Beginn einer jeden SSH-Session das folgende Kommando ausführen:

sudo -i

Nach Ausführung des Kommandos erhalten Sie weiterführende (Root-) Berechtigungen ohne das Kommando „sudo“ jedem Befehl auf der Kommandozeile voranstellen zu müssen.

Um Smartmontools zu installieren, müssen Sie lediglich Folgendes ausführen:

-Debian und Ubuntu-

apt update && apt install smartmontools

-CentOS-

yum install smartmontools

B) Smartctl verwenden

Um Ihre Festplatten überprüfen zu können, müssen Sie erst herausfinden, wie diese heißen. Benutzen Sie dazu bitte folgenden Befehl:

fdisk -l

Beispielausgabe:

Disk /dev/hda: 160.0 GB, 160041885696 bytes
255 heads, 63 sectors/track, 19457 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

Device Boot Start End Blocks Id System
/dev/hda1 * 1 19269 154778211 83 Linux
/dev/hda2 19270 19457 1510110 5 Extended
/dev/hda5 19270 19457 1510078+ 82 Linux swap / Solaris
server1:~#

Hieraus wird ersichtlich, dass Ihre Festplatte die Bezeichnung „/dev/hda“ hat. Neben dem „hdX“ gibt es häufig auch „sdX“. Es hat keinen Sinn, RAID-Arrays mit smartmontools zu prüfen (z.B. „md0“).

Da Sie nun die Bezeichnung Ihrer Festplatte kennen, können Sie smartctl wie folgt ausführen:

smartctl -a /dev/hda

Wenn Sie dies zum ersten Mal ausführen, sehen Sie etwas in der Art:

server1:~# smartctl -a /dev/hda
smartctl version 5.36 [i686-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model: ST3160022ACE
Serial Number: 5JS3XTZX
Firmware Version: 9.01
User Capacity: 160,041,885,696 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 6
ATA Standard is: ATA/ATAPI-6 T13 1410D revision 2
Local Time is: Tue Apr 8 18:58:44 2008 CEST
SMART support is: Available – device has SMART capability.
SMART support is: Disabled

SMART Disabled. Use option -s with argument ‚on‘ to enable it.
server1:~#

SMART ist in diesem Fall deaktiviert. Um es zu aktivieren, müssen Sie diesen Befehl erneut mit <-s on> ausführen:

smartctl -s on -a /dev/hda

Nun bekommen Sie eine umfangreichere Ausgabe, inklusive aller Fehler, die im SMART Log aufgeführt sind:

server1:~# smartctl -s on -a /dev/hda
smartctl version 5.36 [i686-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model: ST3160022ACE
Serial Number: 5JS3XTZX
Firmware Version: 9.01
User Capacity: 160,041,885,696 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 6
ATA Standard is: ATA/ATAPI-6 T13 1410D revision 2
Local Time is: Tue Apr 8 18:59:14 2008 CEST
SMART support is: Available – device has SMART capability.
SMART support is: Disabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (15556) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 111) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 059 056 006 Pre-fail Always – 163692057
3 Spin_Up_Time 0x0003 096 096 000 Pre-fail Always – 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always – 0
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always – 0
7 Seek_Error_Rate 0x000f 100 253 030 Pre-fail Always – 722959
9 Power_On_Hours 0x0032 100 100 000 Old_age Always – 55
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always – 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always – 37
194 Temperature_Celsius 0x0022 039 046 000 Old_age Always – 39
195 Hardware_ECC_Recovered 0x001a 059 056 000 Old_age Always – 163692057
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always – 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline – 0
199 UDMA_CRC_Error_Count 0x003e 200 199 000 Old_age Always – 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline – 0
202 TA_Increase_Count 0x0032 100 253 000 Old_age Always – 0

SMART Error Log Version: 1
ATA Error Count: 0
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It „wraps“ after 49.710 days.

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

server1:~#

Da SMART nun aktiviert ist, brauchen Sie nicht mehr <-s on>, was bedeutet, dass Sie smartctl wie im ersten Beispiel abrufen können.

smartctl -a /dev/hda

Um mehr über smartctl herauszufinden und wie es verwendet werden kann, sehen Sie sich bitte die smartctl Manual Page an:

man smartctl

Einige S.M.A.R.T. Werte, auf die man achten sollte:

Reallocated_Sector_Count

An dieser Stelle sollte immer eine 0 stehen. Falls hier eine andere Zahl steht, bedeuted das in der Regel, dass die Festplatte innerhalb der nächsten 6 Monate ausfallen wird. Wenn der Eintrag schon deutlich länger, beispielsweise 2 Jahre, zurück liegt, dann ist hier jedoch noch kein Grund zur Sorge geboten. Die fehlerhaften Sektoren wurden übertragen, und wenn keine neuen dazukommen, ist das Problem damit auch behoben.

Current_Pending_Sector

Dieser Eintrag zeigt an, dass es Sektoren auf der Festplatte gibt, die überprüft werden und eventuell als problematisch einzustufen sind. Mit Blick auf den Reallocated_Sector_Count lässt sich hier auch ein nahender Ausfall der Festplatte erkennen.

Offline_Uncorrectable

Die Festplatte ist sehr wahrscheinlich in einem sehr schlechten Zustand. Um das genau zu prüfen, hilft nur die Platte komplett voll zu schreiben und nochmal zu testen.

UDMA_CRC_Count

Dies kann zu ernsthaften Problemen führen, und hängt meistens mit einem fehlerhaften S-ATA Kabel zusammen. Nach einem Kabeltausch sollte der Fehler verschwinden, falls nicht, bedeutet dies wahrscheinlich ein Problem mit dem Motherboard.

Bitte beachten Sie, dass die Benutzung von smartmontools, oder memtest, auf einem VPS immer zu verfälschten Ergebnissen führen wird. Dies liegt an der Tatsache, dass die komplette „Hardware“ per Definition virtualisiert ist. Wir versichern Ihnen, dass wir immer ein hohes Augenmerk auf den Zustand der Festplatten in unseren Host-Systemen haben. Als VPS-Besitzer müssen Sie sich nicht um den physischen Zustand Ihrer Festplatte sorgen.

Nach oben scrollen