HDS HNAS 4000系列重启现象详解

HDS的NAS存储机头产品HNAS 4000系列可以说是很有历史的产品。然而我们的一些客户在长达数年的使用过程中经常发现某些机头会无预兆地重启,最近找到一些资料,总结一下。

主要内容:

  1. HNAS 4000系列的重启机制是由Intel的FPGA芯片校验技术引发和自身产品设计逻辑决定的
  2. 不变更上一条的情况下,对HNAS升级微码不能彻底解决此问题。
  3. HNAS的后续产品使用了stratix V芯片,这款芯片可以对CRC校验出的位翻转错误进行修复,从而避免重启。
  4. 核实HNAS系列均使用的是stratix IV芯片。

以下为详情资料:

https://community.hitachivantara.com/s/question/0D51J00004fdLSk/hnas-systems-transient-errors-errors-and-unexpected-reboots-
img

这是HDS官方社区中,和我们遇到的完全相同的案例的提问。在这条提问中,把重启发生的技术原理做了解释。简单介绍一下:FPGA芯片中有一种CRC校验机制时,如果它发现了单bit突然的翻转现象(这就是从二进制的0变成1或者1变成0,这是所有电气设备都可能产生的),它就会发出一个“assert”的状态信号。在HNAS设备中,会因为这个信号重启自身。以消除这种瞬时错误。(更详细解释附于文末)

在下方回复中,有一条Nathan King的评论引起了我的关注。

该评论提到这种翻转是无法预测的,新一代(当时的新一代,即现在N系列存储的上一代产品, NAS Module集成在SAN存储机框内的产品)因采用了stratix V芯片可以解决。

img

下面我点开这个链接查看了一下。

https://www.intel.com/content/dam/www/programmable/us/en/pdfs/literature/wp/wp-01135-stxv-seu-mitigation.pdf

主题是关于FPGA芯片的改进信息,关键信息在第四页的表格。

img

从上表能看到:CRAM Error Correction 只有只有Stratix V代才具备的功能。这个功能可以自动修复CRC错误。

最后,我想核实一下,Hnas设备到底使用的是什么FPGA芯片。官网的datasheet没有列出。我在下面这个网站找到了答案。

https://www.spec.org/sfs2008/results/res2013q3/sfs2008-20130703-00223.html
img

可以看到,hnas 4100采用的Altera Stratix IV芯片。

最后,附上技术原理的详细解释:

img

此条目发表在IT技术分类目录,贴了, 标签。将固定链接加入收藏夹。