常见问题常见问题   搜索搜索   会员列表会员列表   团队团队   注册注册    个人资料个人资料   登录查看您的站内信件登录查看您的站内信件   登录登录 

求助,被这个文件存储折腾的不行,大师提点一下吧

 
发表新文章   回复文章    FreeBSD China -> 技术交流
阅读上一个主题 :: 阅读下一个主题  
作者 留言
zmoon
道童


注册时间: 2003-03-06
文章: 489

文章发表于: Tue 2018-12-25 17:56:20    发表主题: 求助,被这个文件存储折腾的不行,大师提点一下吧 引用并回复

Freebsd 12.0 做 zfs 存储 用于nfs共享

新服务器 :Dell R730XD :BIOS确认为最新

服务器模式, 设置为BIOS引导模式 (非UEFI)
HBA卡 : dell H330mini卡 固件确认为最新


硬盘 : 一块intel系统盘,六块希捷4T SAS磁盘 ,后面还有几块东芝Dell认证的原厂硬盘4T SAS (本来是根据故障现象,计划替换前面的6块硬盘的)

root@BSDFS01:~ # mfiutil show drives
mfi0 Physical Drives:
0 ( 447G) JBOD <INTEL SSDSC2KG48 0100 serial=BTYG82910AAQ480BGN> SATA E1:S0
2 ( 3726G) JBOD <SEAGATE ST4000NM0023 GS0A serial=Z1Z0XX9N> SCSI-6 E1:S2
3 ( 3726G) JBOD <SEAGATE ST4000NM0023 GS0A serial=Z1Z1SDPT> SCSI-6 E1:S3
4 ( 3726G) JBOD <SEAGATE ST4000NM0023 GS0A serial=Z1Z1BZ57> SCSI-6 E1:S4
5 ( 3726G) JBOD <SEAGATE ST4000NM0023 GS0A serial=Z1Z1F4MB> SCSI-6 E1:S5
6 ( 3726G) JBOD <SEAGATE ST4000NM0023 GS0A serial=Z1Z1CQLE> SCSI-6 E1:S6
7 ( 3726G) JBOD <SEAGATE ST4000NM0023 GS0A serial=Z1Z1SHD2> SCSI-6 E1:S7
9 ( 3726G) JBOD <TOSHIBA MG04SCA40ENY EG03 serial=8810A1HFF74E> SCSI-6 E1:S9
10 ( 3726G) JBOD <TOSHIBA MG04SCA40ENY EG03 serial=8810A1K2F74E> SCSI-6 E1:S10
11 ( 3726G) JBOD <TOSHIBA MG04SCA40ENY EG03 serial=8810A1UVF74E> SCSI-6 E1:S11


dmesg 控制台全是这种错误

mfisyspd7: hard error cmd=read 223743863-223744414
mfi0: I/O error, cmd=0xfffffe00003fa6b8, status=0x3c, scsi_status=0
mfi0: sense error 0, sense_key 0, asc 0, ascq 0
mfisyspd7: hard error cmd=read 223744415-223744966
mfi0: I/O error, cmd=0xfffffe00003f7c38, status=0x3c, scsi_status=0
mfi0: sense error 0, sense_key 0, asc 0, ascq 0
mfisyspd1: hard error cmd=write 223741173-223741724
mfi0: I/O error, cmd=0xfffffe00003fb378, status=0x3c, scsi_status=0
mfi0: sense error 0, sense_key 0, asc 0, ascq 0
mfisyspd8: hard error cmd=write 223742775-223743286
mfi0: I/O error, cmd=0xfffffe00003fb1e0, status=0x3c, scsi_status=0
mfi0: sense error 0, sense_key 0, asc 0, ascq 0
mfisyspd7: hard error cmd=write 5190562870-5190563401
mfi0: I/O error, cmd=0xfffffe00003f8320, status=0x3c, scsi_status=0
mfi0: sense error 0, sense_key 0, asc 0, ascq 0
mfisyspd8: hard error cmd=write 5190562870-5190563421
mfi0: I/O error, cmd=0xfffffe00003fab80, status=0x3c, scsi_status=0
mfi0: sense error 0, sense_key 0, asc 0, ascq 0
mfisyspd6: hard error cmd=write 5190562780-5190563331
mfi0: I/O error, cmd=0xfffffe00003fb378, status=0x3c, scsi_status=0
mfi0: sense error 0, sense_key 0, asc 0, ascq 0
mfisyspd2: hard error cmd=write 5148274065-5148274616
mfi0: I/O error, cmd=0xfffffe00003f9640, status=0x3c, scsi_status=0
mfi0: sense error 0, sense_key 0, asc 0, ascq 0
mfisyspd9: hard error cmd=write 5148274796-5148275347
返回页首
阅览会员资料 发送站内信件
zmoon
道童


注册时间: 2003-03-06
文章: 489

文章发表于: Tue 2018-12-25 17:57:11    发表主题: 引用并回复

action: Wait for the resilver to complete.
scan: resilver in progress since Tue Dec 25 09:02:24 2018
328G scanned at 103M/s, 29.6G issued at 9.31M/s, 328G total
16.7G resilvered, 9.04% done, no estimated completion time
config:

NAME STATE READ WRITE CKSUM
datapool ONLINE 0 0 2.32K
raidz2-0 ONLINE 0 0 67.5K
replacing-0 ONLINE 0 0 34.5K
mfisyspd1 ONLINE 0 0 39.4K
mfisyspd7 ONLINE 0 0 0
replacing-1 ONLINE 0 0 25.1K
mfisyspd3 ONLINE 0 0 34.3K
mfisyspd9 ONLINE 0 0 0
mfisyspd6 ONLINE 0 0 65.5K
mfisyspd5 ONLINE 0 0 46.1K
replacing-4 ONLINE 0 0 26.7K
mfisyspd2 ONLINE 0 0 41.8K
mfisyspd8 ONLINE 0 0 0
mfisyspd4 ONLINE 0 0 57.9K
logs
mfisyspd0p3 ONLINE 0 0 0
cache
mfisyspd0p4 ONLINE 0 0 0

errors: 2317 data errors, use '-v' for a list

pool: zroot
state: ONLINE
scan: none requested
config:

NAME STATE READ WRITE CKSUM
zroot ONLINE 0 0 0
mfisyspd0p2 ONLINE 0 0 0

errors: No known data errors

在替换过程中发现,其实新加的原装硬盘 mfisyspd7-9 也仍然会报IO error ,完全不知道下一步该怎么跟了。
返回页首
阅览会员资料 发送站内信件
zmoon
道童


注册时间: 2003-03-06
文章: 489

文章发表于: Wed 2018-12-26 02:56:47    发表主题: 引用并回复

重装降级到11.2了,貌似正常,可怜我那十几台马上要上线的虚拟机应用,第一次遇到这么大的坑
返回页首
阅览会员资料 发送站内信件
zmoon
道童


注册时间: 2003-03-06
文章: 489

文章发表于: Mon 2018-12-31 00:43:43    发表主题: 引用并回复

在降级重装到freebsd11.2后,恢复正常,补充一些相关信息

1:服务器无任何硬件告警,zfs pool 里面全是checksum 的错误计数,但没有读写的错误计数,做scrub 也能看到修复了错误,但再次做scrub仍然会重复上一次错误修复的效果。

后来发现zfs系统盘的ssd的sata系统盘,只要做scrub操作也能同样发现大量checksum错误。

注:这些sas和sata磁盘在安装在dell R710上的freebsd 12 也没有出现问题
(但因为放到idc后,出现每隔一天会无故重启一次的问题,也没有log/告警) ,然后就换成新的730xd了。

2: 卡信息
root@zfs1:~ # mfiutil show firmware
mfi0 Firmware Package Version: 25.5.5.0005
mfi0 Firmware Images:
Name Version Date Time Status
BIOS 6.33.01.0_4.16.07.00_0x06120304 03/14/2018 03/14/2018 active
CTLR 5.18-0701 Jan 16 2018 14:11:19 active
CPLD 0002 01/22/15 15:28:00 active
APP 4.290.01-8335 Mar 22 2018 14:21:52 active
NVDT 3.1511.01-0020 Oct 31 2017 17:12:39 active
SGFW 1.00.02 Aug 24 2013 05:06:18 active
BTBL 3.07.00.00-0003 Jul 31 2015 14:47:18 active

root@zfs1:~ # mfiutil show adapter
mfi0 Adapter:
Product Name: PERC H330 Mini
Serial Number: 88F1059
Firmware: 25.5.5.0005
RAID Levels:
Battery Backup: not present
NVRAM: 32K
Onboard Memory: 0M
Minimum Stripe: 64K
Maximum Stripe: 64K

3: 硬盘信息: raidz2

root@zfs1:~ # mfiutil show drives
mfi0 Physical Drives:
0 ( 447G) JBOD <INTEL SSDSC2KG48 0100 serial=BTYG82910AAQ480BGN> SATA E1:S0
2 ( 3726G) JBOD <TOSHIBA MG04SCA40ENY EG03 serial=8810A1HJF74E> SCSI-6 E1:S2
3 ( 3726G) JBOD <TOSHIBA MG04SCA40ENY EG03 serial=8810A1HFF74E> SCSI-6 E1:S3
4 ( 3726G) JBOD <TOSHIBA MG04SCA40ENY EG03 serial=8810A1K2F74E> SCSI-6 E1:S4
5 ( 3726G) JBOD <TOSHIBA MG04SCA40ENY EG03 serial=8810A1UVF74E> SCSI-6 E1:S5
6 ( 3726G) JBOD <TOSHIBA MG04SCA40ENY EG03 serial=8810A0GDF74E> SCSI-6 E1:S6
7 ( 3726G) JBOD <TOSHIBA MG04SCA40ENY EG03 serial=8810A281F74E> SCSI-6 E1:S7
8 ( 3726G) JBOD <SEAGATE ST4000NM0023 GS0A serial=Z1Z0XX9N> SCSI-6 E1:S8
9 ( 3726G) JBOD <SEAGATE ST4000NM0023 GS0A serial=Z1Z1CQLE> SCSI-6 E1:S9
10 ( 3726G) JBOD <SEAGATE ST4000NM0023 GS0A serial=Z1Z1SHD2> SCSI-6 E1:S10
11 ( 3726G) JBOD <SEAGATE ST4000NM0023 GS0A serial=Z1Z1SDPT> SCSI-6 E1:S11
返回页首
阅览会员资料 发送站内信件
million
道童


注册时间: 2002-07-09
文章: 289
来自: StarBucks Cafe

文章发表于: Mon 2018-12-31 15:34:32    发表主题: 引用并回复

问题锁定了么?

看下来

710是11/12版本都正常,但12会一天重启一次~~
730是11正常,12异常

盘都是一样~~
返回页首
阅览会员资料 发送站内信件 浏览发表者的主页
zmoon
道童


注册时间: 2003-03-06
文章: 489

文章发表于: Tue 2019-01-08 21:56:41    发表主题: 引用并回复

710这种机器毕竟有十来年历史了,有故障也没有修理价值,用12出现问题就直接换新730xd了,所以重点是730xd跑12有这个问题,降级到11.2恢复正常( 后续又特意limit arc内存大小到48G,64G内存环境系统居然会因为内存不足 kill进程)
返回页首
阅览会员资料 发送站内信件
stevenkoh
半仙


注册时间: 2003-05-07
文章: 4

文章发表于: Tue 2019-01-22 11:15:34    发表主题: 引用并回复

12难道改了什么策略?
返回页首
阅览会员资料 发送站内信件 MSN Messenger
sharin
道士


注册时间: 2003-05-09
文章: 586

文章发表于: Thu 2019-03-21 23:04:34    发表主题: 引用并回复

我也有类似配置的R730xd 330mini 机器,硬盘是12 个 8TB的氮气盘。
你有没有发现这个机器装超过3个3.5硬盘,风扇转速就升高?
返回页首
阅览会员资料 发送站内信件
从以前的文章开始显示:   
发表新文章   回复文章    FreeBSD China -> 技术交流 论坛时间为 北京时间
1页/共1

 
转跳到:  
不能发布新主题
不能在这个论坛回复主题
不能在这个论坛编辑自己的文章
不能在这个论坛删除自己的文章
不能在这个论坛发表投票


Powered by phpBB 2023cc © 2003 Opensource Steps; © 2003-2009 The FreeBSD Simplified Chinese Project
Powered by phpBB © 2001, 2005 phpBB Group
Protected by Project Honey Pot and phpBB.cc
silvery-trainer
The FreeBSD China Project 网站: 中文计划网站 社区网站
The FreeBSD China Project 版权所有 (C) 1999 - 2003 网页设计版权 著作权和商标