小米自动化运维平台演进设计思路-白红宇

小米自动化运维平台演进设计思路

阅读量：5903 次

发布时间：2019-06-19

本文共 3488 字，大约阅读时间需要 11 分钟。

现如今，随着云计算和分布式的落地和发展，越来越多的服务器都转到云上，微服务架构的落地也让现在的 IT 系统架构越来越复杂。我们的服务、应用所面对的规模也越来越大，这样的需求需要强大的运维管控系统在后面支撑。

智能运维（AIOps）的概念现在很火，旨在借助人工智能机器学习和算法将IT运维人员从繁重的工作中解救出来，但是对于智能运维大家都在探索当中，AIOps的技术并不是很成熟。大多数企业还处在对自动化运维的需求迫在眉睫的阶段，需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因此本次InfoQ记者采访了小米资深架构师孙寅，和大家一起了解小米的自动化运维平台是如何演进的。

背景介绍

小米自动化运维平台从2013年开始建设。截止目前，小米有300+业务线，5W+服务器规模。6年里伴随着互联网业务的陡峭增长，小米运维平台也发生了天翻地覆的变化。平台整体建设情况大致可以分为三个阶段：

1. 工具型平台（2013~2014年）

这个阶段，平台主要在解决一些基础痛点问题，如资产难以管理、软硬件难以有效监控、人肉发布效率低下错误率高等，因此孵化了CMDB+服务树、监控系统（Falcon）、发布系统等几个一直沿用至今的工具型平台的核心组件。并且借助推广这几个核心组件，对业务进行了基础标准化。

2. 体系化平台（2014～2015年）

在此阶段，团队逐步补齐了整个运维闭环中的各个环节，如预算交付、OS自动安装和环境初始化、域名、负载均衡、备份等。并通过打通运维闭环中的各个环节和体系化设计，建设起了跨越系统的自动化体系，如服务器交付自动初始化、各种场景的监控自动发现、发布和负载均衡变更联动等等。

3. 数据中心操作系统（DCOS）（2016年至今）

在此阶段，以容器PaaS为标准化载体，构建自动化程度更高、能力更丰富、体系更内聚的基础架构生态系统，包括：

监控：丰富细化了各种具体场景的监控，如：
1. 公有云、网络设备、南北/东西网络、域名、负载均衡、容器集群等；
2. 端到端访问质量监控，模拟用户真实访问发现最后一公里问题；
3. 分布式调用跟踪监控，穿透式跟踪故障点；
4. 精准报警和根因分析，整合各类型监控，依赖决策树、机器学习等能力自动寻找根因。

服务组件：自助创建集群，自动配置最佳实践，具备故障自愈能力的服务组件，如MySQL、Redis、Memcached、Kafka、ES等；

CI/CD：打通整个开发、测试、交付链条的自动化Pipeline；

服务治理：流量路由、流量镜像、服务保护、白名单、熔断、链路跟踪、服务拓扑；

故障：故障注入、故障自愈、故障跟踪。

平台架构设计

小米自动化运维平台的整个平台体系架构，可参考下面图示：

$\"\"$

图示底部是IaaS层的各种资源及其管理平台，如网络管理、多云接入、域名、负载均衡等。

上面承载了庞大的PaaS体系，划分为四大部分，容器、应用、服务治理、故障容灾。

左右两侧是一些公共能力，如CMDB、监控、安全。

配置管理（CMDB）由于和内部资产、环境、流程有比较紧密的耦合关系，业内也并没有比较成熟的开源实现，因此基本完全自研。

部署发布系统使用了Puppet对运行环境进行变更和管理，植入了God为每个进程提供自动恢复的能力，使用了Docker来解决编译一致性的问题，同时也支持了静态发布Docker容器。

小米早期使用了开源监控系统Zabbix，但由于监控规模得扩大、监控场景得复杂化、配置难度大等原因，我们内部自研了监控系统Falcon，也就是业内著名的企业级监控Open-Falcon。随着使用场景得继续丰富，目前也已支持监控数据旁路到ElasticSearch、仪表盘支持Grafana，同时还在探寻数据存储使用时序数据库Beringei，以支持更好的扩展性和便于实现更丰富的报警判别功能。