记录昨天 一次存储数据的悲剧情况.

记录昨天 一次存储数据的悲剧情况.

其实这个都不能算悲剧 因为一些自己大意了的事
所以只能说自己作死作的

事情的起因是达拉斯一台存储的服务器
硬件是
E3处理器 / 16G内存 / 2x120G SSD + 6x4000G SATA / 1Gbps独享带宽
其中 2x120G RAID1 , 6 x 4000G SATA Raid0 ,是的 没错 Raid0 就是Raid0 Raid0啊 天啦 好神奇……
当初可能是为了节省存储成本 毕竟本来22T可用 如果Raid1 就变11T了 少一半啊一半啊… 哪里会想那么多……

一块硬盘有坏道 快阵亡了
只是有部分 buffer I/O 故障, 导致重启以后 Raid 离线
本来正确的处理方式 是换硬盘 重新上线raid阵列就可以了
然后悲剧了,结果发现这台与1年以前上架的机器,是Raid0
也就说 换掉硬盘 整个Raid阵列都要rebuild才能使用 所有数据Lost…..
一波三折啊
在启动 原来安装的系统 都无法启动了 进入 Centos那个进度条 死活进不去
(这个时候 应该使用安装的ISO 修复下系统 或者recue mode进去 问题也应该不大)

我直接挂了个livecd 去尝试挂在那个raid0的LV卷 可以挂成功,数据也可以读出来 (除了有坏道的那块外)
bad-blocks屏蔽掉 不影响99%数据的
又一波三折啊
我一激动 数据问题不大 不如改把Raid1 去掉 改为volume 模式
2个SSD 1个直接做系统盘 1个做Raid卡里的MaxCache 反正SSD坏的几率很小 也打算退役了掉这个机器了 先撑着
然后重新安装好心态 在挂载 才发现文件系统是XFS的 metadata写到ssd=>raid1->LVM pv->vg->lv里路
这下蒙了 挂不上了啊 傻逼了啊
之前也没注意是XFS文件系统啊 我不是应该都使用的ext3 ext4吗?
好了 回忆了一下 对的 应该是考虑性能 确实选了xfs系统
这下蒙逼了 啊啊啊啊啊 抓狂了

继续解决问题呗 首先 尝试
xfs_repir 修复 无果
都是因为super blocks 丢失问题
(这个我知道成功不大 因为没xfs_db备份过meta 而且最主要的是 为了提高SSD性能 我在把raid1换为volume的时候 还低级格式化了 基本没的救)
各种方法 都失败了

最后 想了想 还是用蠢方法吧
走数据恢复的路子吧 在折腾估计要彻底悲剧了

先让机房给我准备一台同配置的机器
然后这台安装Linux系统 配SAMBA 给windows共享

原来的这台机器 直接安装Windows系统 买了个XFS的文件恢复软件

我也知道支持国产,但是国产有个D-recovery公司的数据恢复软件,价格 3000-5000 的我就兴趣缺缺了
我只是一次性使用这个价格买不划算了,然后看到 raise的产品,
官方store显示的价格 应该有60多刀 不知道为什么 我下载软件 add license 显示的是这个价 便宜好多感觉

测试可以读出文件 然后才花了$30买了这个东西

产品名: Raise Data Recovery – General Software License [WIN/6/STS]
产品代码: rdr6gs
数量: 1
单价: 16.50 USD
税(增值税): 0.00 USD
总额: 16.50 USD
产品名: Raise Data Recovery – XFS File System Support License [WIN/6/STS]
产品代码: rdr6xs
数量: 1
单价: 14.29 USD
税(增值税): 0.00 USD
总额: 14.29 USD
订单小计: 30.79 USD
订单总额: 30.79 USD

原来的服务器数据有20T 但是不能动 安装系统只有1个SSD 110G存储空间
20T数据导出来没地方放
所以才让机房给我个同配置的大存储机器 安装SAMBA做共享顶着
然后windows系统挂载这个SAMBA分区

最后说下 机房的技术支持真的很nice

出问题了 我就和机房说了下 硬盘坏了 然后什么也没提供
他们的不同的staff回了我3次 问应该怎么帮助我 而我一直在搞上面那些事

然后就开始讨论这个问题,建议应该是使用raid10 保证数据安全
然后让他们加个机器 我说买 他们说不用 可以先上架先用,是买还是临时用以后在说
大概几个小时机器就上架 给我先用

还特别给我和老的机器放到同个机柜 来提高数据传输速度
接着因为他们的账单问题 给我生成了错误的账单 然后直接信用卡扣费了
我又问了下什么个情况,说搞错了系统自动扣了 就给我退款了

The due date on your servers should not have been changed. I have put them back. I have also refunded the $510 in full. Server21537 is free until 08/12/2016. So you have until 08/12/2016 to move your data for free. On 08/12/2016 you can decide to keep both servers or just the new server.

1
退款超快的

现在就在导出数据到新机器
一级一级的导出 怕遇到那个I/O错误导致崩溃的问题
9

以前有过丢失数据的经历
一般我都很注意备份的问题,这个Raid0外加没备份的问题 是他妈数据太大了啊 20T数据
我当数据仓储在用,什么都往里面丢 最后悲剧了…… 虽然算抢救回来了

这次的经历告诉我 备份还是是要有的 万一挂了嘞?

One thought on “记录昨天 一次存储数据的悲剧情况.

  1. xin

    ads.org.cn

    不知道你上不
    都是高联盟的

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注