存储小海
作者存储小海联盟成员·2021-08-26 15:44
工程师·华为

OceanStor Dorado硬盘健康预测原理

字数 937阅读 615评论 0赞 0

硬盘健康预测

硬盘是存储系统的基础组成,虽然当今存储系统广泛使用各种冗余技术,但都只能保证有限块硬盘失效的场景,如RAID5只允许一块硬盘失效,当出现两块硬盘失效时,存储系统为保障数据可靠,将停止对外提供服务。同时硬盘还是存储系统最大的消耗品,硬盘寿命是很多用户最关心的话题,由于SSD盘是电子元器件,硬盘寿命预测指标非常少,同时业务每天读写繁忙度不同加剧寿命预测结果的难度。

eService通过采集硬盘的Smart信息、硬盘的I/O链路信息、硬盘可靠性指标,输入到数百个硬盘失效预测模型里进行预测,实现精准预测SSD盘寿命的功能。eService使用智能算法实现硬盘风险预测,提前发现故障硬盘和更换风险盘,实现故障预防,提高系统可靠性

图1-1 硬盘健康预测实现原理图

  • 数据源采集

硬盘厂商会提供硬盘的S.M.A.R.T的静态数据,这些S.M.A.R.T信息中有很多可以表征硬盘的运行状态,能够一定范围内识别风险盘,但预测结果准确度很难保证。eService采用 智能 动态分析硬盘S.M.A.R.T的变化、性能指标波动规律,以及硬盘LOG,确保预测结果更加准确。

  • S.M.A.R.T

SSD盘,SSD接口提供了SCSI Log Page信息,这些Log Page中的信息详细记录当前硬盘的状态、当前性能指标,如grown defect list、non-medium error、read/write/verfify uncorrected errors等。

  • 性能指标

包括硬盘每分钟的平均I/O大小分布、IOPS、带宽、每天处理的bytes数等Workload信息,以及时延,平均服务时间等性能指标。

  • 硬盘LOG

包括华为存储内部采集的I/O错误码信息,DIF错误信息,降级错误信息,慢盘信息与慢盘周期、盘片寿命等信息,确保预测更加准确。

  • 特征提取

通过HistoryBigData 大量样本数据,利用算法自动进行特性变换和特征提取

  • 分析平台

    • 在线训练:基于模型算法进行训练,通过有限次迭代,优化模型算法。
    • 机器学习模型库:硬盘失效预测模型。
    • 在线预测:使用优化后的训练模型对硬盘进行失效预测
  • 预测结果

eService通过海量的SSD硬盘数据的测试验证,基于硬盘失效预测模型实现精准预测SSD盘寿命。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广