-
8月16日
-
在服务器管理的实际环境中,硬盘是最容易出现问题及发生故障的硬件,而且硬盘中存储着大量重要的数据,万一出现故障所造成的损失也是无法估计的,轻则需要化费大量的时间与精力去做数据恢复,重则硬盘报废,里面重要的数据也无法100%挽回,所以对硬盘健康状监控十分必要。
一:什么是Smartmontools?
Smartmontools是一种硬盘检测工具,通过控制和管理硬盘的SMART(Self Monitoring Analysis and Reporting Technology,自动检测分析及报告技术)技术来实现的,SMART技术可以对硬盘的磁头单元、盘片电机驱动系统、硬盘内部电路以及盘片表面介质材料等进行监测,当SMART监测并分析出硬盘可能出现问题时会及时向用户报警以避免计算机数据受损失。
SMART技术必须在主板支持的前提下才能发生作用,而且 SMART技术也不能保证能预报所有可能发生的硬盘故障。SMART(SFF-8035i) 是硬盘生产商们建立的一个工业标准,这个标准就是在硬盘上保存一个跟执行情况,可靠程度,读找错误率等属性的表格。所有属性都有一个1byte(大小范围1-253)的标准化值,还包含另一个1byte的关键阶段值,如果属性表格内某个数据接近小于或达到关键阶段值,表明硬盘工作不正常了。
二:安装部署
2.1:下载最新源码包安装
下载
wget http://down1.chinaunix。net/distfiles/smartmontools-6.0.tar.gz
解压
tar -xvf smartmontools-6.0.tar.gz
编译
cd smartmontools-6.0
./configure
安装
make && make install
2.2:使用yum安装部署
yum install smartmontools -y
三:启动进程,注册服务
smartd是smartmontools软件包中的一个实用程序,可以单独运行,也可以注册为系统服务,
Windows上的注册命令为:>smartd install注册后,打开services.msc,可看到一个名叫“SmartD Service”服务,并设置为“自动”启动。
在linux 系统平台上可通过向/etc/init.d添加smartd脚本,其实在安装smartmontools软件包的时候通常会安装到这个位置,只需要在对应的启动级别下做一个软链接就可以了。
smartd的配置文件为smartd.conf(Windows和非Windows平台都叫这个名字,Windows平台与smartd.exe在同 一个目录下,非Windows平台位于/etc目录下),在这个配置文件中已经内置许多种监视方法和参数说明,值得一体的是-m参数,可以利用它将监视报 告以邮件的形式发送给指定的E-mail地址,这样设备管理员就可以坐在电脑前就可以掌控所有硬盘设备的健康状况了,利用smartd进行自动监控。
3.1:启动监控进程
cp -rp /usr/local/etc/rc.d/init.d/smartd /etc/init.d/
[root@cn-ptmind smartmontools-6.0]# /etc/init.d/smartd start
正在启动 smartd:[确定]
3.2:注册服务、添加开机启动
chkconfig --add smartd
chkconfig smartd on
四:使用方法简介
1、smartctl -a检查该设备是否已经打开SMART技术。
2、smartctl -s on如果没有打开SMART技术,使用该命令打开SMART技术。
3、smartctl -t short后台检测硬盘,消耗时间短;
smartctl -t long后台检测硬盘,消耗时间长;
smartctl -C -t short前台检测硬盘,消耗时间短;
smartctl -C -t long前台检测硬盘,消耗时间长。其实就是利用硬盘SMART的自检程序。
4、smartctl -X中断后台检测硬盘。
5、smartctl -l selftest显示硬盘检测日志。
6、smartctl -l error显示硬盘错误汇总。
五:检测方法案例介绍;
5.1:检查硬盘是否支持SMART
1993年以后出厂的硬盘基本上都支持SMART技术,使用如下命令可以来查看
[root@cn-ptmind smartmontools-6.0]# smartctl -i /dev/sda
sda sda1 sda2 sda3 sda4 sda5
[root@cn-ptmind smartmontools-6.0]# smartctl -i /dev/sda5
smartctl 6.0 2012-10-10 r3643 [x86_64-linux-2.6.32-220.el6.x86_64] (local build)
=== START OF INFORMATION SECTION ===
Model Family: Western Digital RE4 Serial ATA
Device Model: WDC WD5003ABYX-01WERA1
Serial Number: WD-WMAYP2734314
LU WWN Device Id: 5 0014ee 0030d7592
Firmware Version: 01.01S02
User Capacity: 500,107,862,016 bytes [500 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS (minor revision not indicated)
SATA Version is: SATA 3.0, 3.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Wed Aug 14 18:14:23 2013 CST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
从返回的信息中,可以看到硬盘的生产厂家,型号,序列号,容量,是否支持SMART,目前SMART开启没有。
如果运行这个命令返回了类似“Device does not support SMART”的信息就说明目标硬盘不支持SMART,不能使用这套软件包进行测试和监控。
在上面的信息可以看到,该硬盘是支持SMART技术,且当前是开启的。如果SMART support is: Disabled表示SMART未启用,执行如下命令,启动SMART
smartctl --smart=on --offlineauto=on --saveauto=on /dev/sda5 或者 smartctl -s on -d ata /dev/sda5
这里的参数-s就是用来开关SMART特性的,如果加上参数值on就表示开启,如果参数值是off就表示关闭。
5.2:检查硬盘健康状态
[root@cn-ptmind smartmontools-6.0]# smartctl -H /dev/sda5
smartctl 6.0 2012-10-10 r3643 [x86_64-linux-2.6.32-220.el6.x86_64] (local build)
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
请注意result后边的结果:PASSED,这表示硬盘健康状态良好,如果这里显示Failure,那么最好立刻给服务器更换硬盘。
SMART只能报告磁盘已经不再健康,但是报警后还能继续运行多久是不确定的,通常,SMART报警参数是有预留的,磁盘报警后,不会当场坏掉,一般能坚持一段时间,有的硬盘SMART报警后还继续跑了好几年,有的硬盘SMART报错后几天就坏了,千万不要存在侥幸心理。
执行如下命令可以看到详细的参数:
# smartctl -A /dev/hdb
-a 显示设备所有的SMART信息。
-l error 列出硬盘错误日志。如果显示没有错误最好,如果显示了大量的错误信息,那就该着手准备替换硬盘了。
-l selftest 列出自行测试结果
[root@cn-ptmind smartmontools-6.0]# smartctl -A /dev/sda5
smartctl 6.0 2012-10-10 r3643 [x86_64-linux-2.6.32-220.el6.x86_64] (local build)
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 142 141 021 Pre-fail Always - 3900
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 77
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 086 086 000 Old_age Always - 10783
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 75
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 70
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 6
194 Temperature_Celsius 0x0022 109 107 000 Old_age Always - 34
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
FLAG是标记,标准数值(VALUE)应当小于或等於关键值(THRESH)。WHEN_FAILED 代表错误信息,上面显示的WHEN_FAILED纵行是空行,说明硬盘没有故障。如果WHEN_FAILED显示数字,表明硬盘磁道可能有比较大的坏道。
5.3:对硬盘进行检测 手工对硬盘进行测试的方法有以下四种:
smartctl -t short 后台检测硬盘,消耗时间短
smartctl -t long 后台检测硬盘,消耗时间长
smartctl -C -t short 前台检测硬盘,消耗时间短
smartctl -C -t long 前台检测硬盘,消耗时间长
例如,在后台对硬盘进行详细的检查,命令如下:
smartctl -t long /dev/hdb
同时可以使用 smartctl -X 终止检查。终止硬盘检查命令的使用方法是:
smartctl -X /dev/hdb
查看硬盘错误日志:
#smartctl -l error /dev/hdb
以下是希捷的机械盘
/opt/smartmontools-6.0/sbin/smartctl --info --device=megaraid,1 /dev/sda
健康查询 :
DELL SAS 机械盘 :
/opt/smartmontools-6.0/sbin/smartctl -H -d megaraid,1 /dev/sda
smartctl 6.0 2012-10-10 r3643 [x86_64-linux-2.6.18-274.el5] (local build)
SMART Health Status: OK
DELL SATA SSD硬盘 :
/opt/smartmontools-6.0/sbin/smartctl -H -d sat+megaraid,2 /dev/sdb
smartctl 6.0 2012-10-10 r3643 [x86_64-linux-2.6.18-274.el5] (local build)
除非注明,文章均为宿迁波仔博客原创,转载请注明本文地址:http://wangboxyk.cn/post/Smartmontools-Yingpanjiancegongju.html标签:硬盘
- 评论:(5)
- 隐藏评论
【评论很精彩,有内幕、有真相!】