2015年9月29日星期二

哪种监控工具才是运维人的最爱?

本邮件内容由第三方提供,如果您不想继续收到该邮件,可 点此退订
哪种监控工具才是运维人的最爱?  阅读原文»

哪种监控工具才是运维人的最爱?

哪种监控工具才是运维人的最爱?

那些指标需要监控?我能监控到什么?能监控到何种程度?或许这些问题连你自己都难说清楚。先看看运维兄弟们的现状。

1.运维现状

传统企业的计算机运维是在用户使用计算机过程中发现故障之后,通知运维人员,再由运维人员采取相应的补救措施。运维人员日常大部分时间和精力都花在处理简单且重复的问题上,而且由于故障预警机制不完善,往往是故障发生后才会进行处理,这种情况使运维人员的工作经常处于被动"救火"状态,这种被动的运维模式让IT部门疲惫不堪。运维质量如何提高?生部门能对运维部有满意的评价吗?

目前我们在运维管理过程中缺少明确的角色定义和责任划分,以及自动化的集成运维管理平台,以至于问题出现后很难快速、准确地找到原因,而且在处理故障之后也缺乏必要的跟踪记录。

2.隐藏在流量背后的秘密

网络接口的通端,流量的大小,已满足不了目前运维故障排除的需要。我们需要将流量分析的更深入,更细致。

wKioL1YIrpPwkwLiAAMo8Y4RtNA113.jpg

1 传统流量监控工具看表象

很多漏洞利用攻击、ShellCode攻击都混杂着正常流量进入企业网层层防护关卡。要想知道每个数据包中携带了什么内容,普通的摄像头已经失效,需要更强大的X透视相机-进行协议分析,只有准确理解事物的本质,才能对症下药,Shellcode攻击(下图是shellcode和botnet的实例)和各种蠕虫也是如此。wKioL1YJRA-xRWn9AAkbObm-8fM219.jpg

wKiom1YJRAaDmKDbAAPivWNvabM847.jpg

3.大数据时代下安全运维的新挑战

运维工程师们在大数据时代,下面对大量网络安全事件,若没有有效工具是无法完成分析工作,他们往往面对如下挑战:

1) 每天出现巨大数量的安全报警,管理员很难对这些报警做出响应。

2) 误报严重,管理员无法准确判断故障。

3) 大量重复、零散而没有规律的报警,黑客的一次攻击行动,会在不同阶段触发不同安全设备的告警,这样导致报警数据之间在时间和空间上存在大量重复数据,如果不实现安全事件的关联处理,就无法有效的提高告警质量。

出现这些问题的部分原因是企业缺乏事件监控和诊断等运维工具,因为如果没有高效的管理工具支持,就很难让故障事件得到主动、快速处理。市面上有很多运维监控工具,例如商业版的Cisco Works 2000SolarwindsManageEngine以及专注故障监控的WhatsUp,在开源领域有MRTGNagiosCactiZabbix、Zenoss、OpenNMSGanglia等。由于它们彼此之间没有联系,即便是你部署了这些工具,很多运维人员并没有从中真正解脱出来,原因在于目前的技术虽然能够获取计算机设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起,让人根本没办法判断问题的根源在哪里,缺乏对信息进行筛选、数据挖掘的能力,其实我们并不缺少工具,商业的也好,开源的也吧,一抓一大把,为什么还是用不好?真正缺少的是分析数据的智能化。

另外我们的查看各种监控系统需要多次登录,查看繁多的界面,更新管理绝大多数工作都是手工操作,即使一个简单的系统变更或更新,往往需要运维人员逐一登录系统,当设备数量达到成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT 运维中往往每天都在进行,这无疑会占用大量的运维资源。因此,运维工作人员需要统一的集成安全管理平台已迫在眉睫。

过去仅靠几个"技术大拿"来包打天下已不能满足要求,企业需要一种安全的运维平台,满足专业化、标准化和流程化的需要来实现运维工作的自动化管理。因为通过集成监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,感知网络威胁,把故障消除在萌芽状态。这极大降低了运维人员的工作负担,最大限度地减少维修时间,提高服务质量。

4.人工整合开源工具

既然找不到合适的,我们就把常用的开源工具集成到一个Linux平台,这不是就实现统一管理平台了吗?

wKioL1YIrt6z66R1AAMoiyXE1B0723.jpg

人工整合开源监控系统的难点:

1. 软件和依赖依赖问题难以解决。

2. 各子系统界面重复验证和界面风格问题。

3. 各子系统数据无法共享。

4. 无法实现数据之间关联分析。

5. 无法生成统一格式的报表。

6. 缺乏统一的仪表板来展示重要监控信息。

7. 无法对网络风险进行检测。

8. 各子系统维护难度,增大了运维成本。

实践中发现,这种方案首先遇到了性能问题,一些脚本周期性消耗了较多的CPUI/O资源,所以无法做到实时数据分析。试想有多少且能投入大量人力、时间去开发一个未知的监控平台?

5集成安全运维平台的选择

一个好的安全运维平台需要将事件与IT 流程相关联,一旦监控系统发现性能超标或出现宕机现象,就会触发相关事件以及事先定义好的流程,自动启动故障响应和恢复机制。还需要能够筛选出运维人员完成日常的重复性工作,提高运维效率。要实现这些功能都是常规监控软件CactiZabbix所无法实现。

同时,还要求能够预测网络蠕虫威胁,在故障发生前能够报警,让运维人员把故障消除在萌芽状态,将所产生损失减到最低。总的来说运维人需要能够在一个平台中实现资产管理、分布式部署、漏洞扫描、风险评估、策略管理、实时流量监控、异常流量分析、攻击检测报警、关联分析、风险计算、安全事件告警、事件聚合、日志收集与分析、知识库、时间线分析、统一报表输出、多用户权限管理的功能,这种集成开源工具到底有没有?它去哪儿啦?

目前市面上有两种产品可满足这样的要求,目?p>阅读更多内容

没有评论:

发表评论