Openstack日常运维

    技术2022-07-12  110

     

     

    运维工作内容

    参与设计、审核、优化公司IT系统基础设施以及各应用系统的体系架构。全面负责公司运维项目的系统升级、扩容需求与资源落实,配合开发需求,测试、调整运维平台;负责网络以及交换机、路由器、服务器的网络设置、维护和优化、网络安全的监控、系统性能管理和优化、网络性能管理和优化;建立面向开发部门,业务部门的服务流程和服务标准;负责IT运维相关流程的规划、设计、推行、实施和持续改进;负责设计并部署相关应用平台(包括操作系统和基础服务组件、自动化部署配置工具),并提出平台的实施、运行报告;负责配合开发搭建测试平台,协助开发涉及、推行、实施和持续改进;负责相关故障、疑难问题排查处理,编制汇总故障、问题,定期提交汇总报告;负责云产品服务产品监控和应急反应,以确保云服务产品7*24小时的持续运行能力;负责日常系统维护巡检工作及监控,提供IT软硬件方面的服务和支持,保证系统的稳定。

     

    维护与诊断

    控制节点

    采用高可用部署计划内停机尽量采用非高峰使用停机计划外停机,提供备用机替换或利用编写好的安装配置脚本重新部署新机上实时监测服务进程,进程宕机后利用自动脚本重启服务pstree -a

    计算节点

    计划内停机前,将宿主机内的虚拟机进行迁移,维护完成后恢复虚机检查服务进程 ps aux |  grep nova-compute通过日志文件/var/log/nova/nova-compute检查恢复问题虚拟机利用qemu-nbd命令挂载虚拟机磁盘到本地设备,检查修复失败的虚拟机利用nova volume-detach 和nova volume-attach重新挂载卷存储使用共享存储的虚拟机实在无法启动,可以新建虚拟机挂在其他宿主节点可以利用恢复/var/lib/nova/instances恢复虚拟机pstree -a

    检查网卡状态

    ip -a

    检查连通性

    ping

    检查网络

    tcpdump

    检查DHCP

    Nova console-log ps aux | grep dnsmasq tcpdump

     

    标准化修复与例行检查

     

     

     

    Processed: 0.018, SQL: 9