linux系统运维日常流程规范
目标:保障运营服务器7*24小时正常运行
工作流程:
1、通过nginxstatus页面监视负载、web、图片服务器当前连接状况.
nagios监视每台服务器所有项目的指示灯
. 灯红色表示相关服务器出现故障需要立即处理
. 灯为黄色.表示相关服务器出现异常需要尽快处理
. 灯为绿色.表示目前服务一切正常
2、通过CACTI 页面 查看相关服务器CPU、内存、负载、用户登录及网卡流量,如果任何一项的数值与上周同一时间的数值发生较大差异 就需要查看系统日志找出原因.
3、每三个月修改所有服务器用户密码,每月提交服务器系统状况表.如:内存使用率.硬盘使用率等.
4、每三个月进行一次服务器硬件检查.
5、安全更新.重大漏洞即时经过测试后更新,其它漏洞每1–3月更新一次.
故障处理
1、确认故障,根据故障级别向主管通报
2、向客服及相关部门通报并发布相关公告
3、提出故障处理方案经主管批准后实施
4、每次处理完故障后需要在记录处理过程.格式如下:
发现故障时间. 故障具体状况 处理过程 总结故障原因及预防方法.
灾备
建立灾备方案,定期检查灾备服务器状况保证其100%可用性,定期做灾备演习以应付突发情况
日常管理
1、建立管理及使用文档.
2、及时更新相关管理文档.
3、坚持专机专用理念.
4、及时的补丁更新及漏洞封堵措施
16朵
2个