2013年8月31日星期六

又见日志-从日志中的思考

本邮件内容由第三方提供,如果您不想继续收到该邮件,可 点此退订
又见日志-从日志中的思考  阅读原文»

又见日志-从日志中的思考

煮酒品茶:文章写的比较烂,如果有更好的方案或者有啥错误的话请指出来,品茶在此谢过了。

前记:换新工作后,这边有另一个部门的同事打电话过来要协助。说操作系统启动不了。报错Duplicate or bad block in use!

询问过程:

1、稳定对方,问题发生了咱们不急慢慢解决,别脑袋短了思路。

2、询问对方是否有备份

答:是台SVN的机器,都有备份,是以前的老机器,重启后就一直进不去。

3、询问对方现象是怎样

答:一直进不去单用户模式,卡死在百分之60之后,操作系统是centos 5 x86机器,出问题前一直很少关注此机器,所以无法回答之前有哪些操作

4、询问此机器服务的重要级别

答:重要级别在他们中排的比较低,所以有大把时间找事情。

处理过程:

1、首先让发图到群里

:根据分析,是mount /dev/sys后触发/etc/fstab 中选项选描机器,最后检测到有坏块。初步分析可能是文件系统坏掉或者磁盘某些磁道坏了。

2、制定方案

:因为级别不重要并且有备份,所以很好处理。先让他进单用户模式,在ro 后面加single,多等会儿,让机器扫描完或者别的。进系统后fsck -a /dev/$(sda),如果实在进不去,最好用同发行版的光盘进入恢复模式,挂载硬盘之后再确认是否有重要数据,再次备份出来。在询问中得之他的硬盘使用年限为2年,一般5年就老出问题了。如果是5年了就直接换块新硬盘装系统恢复继续跑。如果硬盘还年轻就让他装完系统恢复跑着。把监控做好。

3、反馈

3.1 告之我已经进入系统(中午吃饭让他一直跑),然后正在fsck修复。然后1个小时后修复成功。

3.2 告之我发现是硬盘使用量达到100%,出问题也有一部原因吧,心里在想难道没有做监控?最后通过du发现是tomcat 日志380G,nginx日志40G,单硬盘500G。瞧了一眼就发现很多问题。

3.3 让他备份日志,他说日志都不需要备份,最后给他讲了日志的重要性后,他还是决定删除,我就让他先删除2010年再册2012年的,发现基本没释放多少。最后他决定全删除,我也没反对。最后清空得到400G左右的空闲空间

3.4 让他再次重启确定进入系统是没有问题的。

3.5 让他做好监控

4、事后反馈

4.1 本以为事情到这里已经有段结尾了,对方又联系说要支持。一番询问下来得知tomcat日志又把磁盘写满了,我心在想有这么大的量吗?才一天。他告诉我是内网访问大造成的。最后告诉他这是tomcat的日志分割的作用,切分后不会把以前的内容删掉,所以是叠加。当然一想也不行,这么大的日志过来,谁也受不了。

4.2 他询问我有没有办法不要日志,我当然又是一通讲解,日志的作用。最后他还是坚持不要。哈哈,内网的也无所谓了,重要级别又不高。

4.3 最后把tomcat的日志名建了一个/dev/null的链接。写日志都写到空设备上面去。

4.4 这下事情应该有一个小段落了

5、反思

5.1 备份机制一定要做好,可以做做恢复迅练。

5.2 如果是我要搞这个事我会怎么做?监控没做好,一切问题都发现不了。

5.3 日志问题一定要解决,可以传到内网备份服务器上面。

5.4 如果重要级别高的话可以做个小RAID,坏块盘也没事。但前提也是要做好监控。

5.5 另外硬盘的年限就那么久,跑了5年了就让他去死吧。上了5年问题就会慢慢积多。

5.6 机器启动不了是为啥?linux操作很多都不需要重启的,如果你改了某些配置,但没让他生交效,等你下次重启时生效结果发现机器启动不了了,就跟服务一样,你改了配置文件,过几天你要改个配置,结果发现启动不了,你检查你今天改的配置你找的出问题?幸好有错误提示。

5.7 是否有个流程指导我们怎么操作这些事儿?

附图:

阅读更多内容

没有评论:

发表评论