1. 自动化运维简介1.1 什么是运维
运维是指对硬件和软件进行运营和维护,保障业务能够长期稳定运行。运维,通常属于技术部门,运维、研发与测试同为互联网产品技术支撑的 3 大部门。运维的职责包括:
1.2 自动化运维
系统管理员日常会进行大量的重复性操作,例如安装软件、修改配置文件、创建用户、批量执行命令等等。如果主机数量庞大,单靠人工维护实在让人难以忍受。考虑如下需求:
需求 1: 某大型企业的生产网络里有 100 台思科交换机,最近公司更换了 TACACS (终端访问控制器访问控制系统) 服务器,需要在这 100 台交换机上进行重新配置。
需求 2: 公司的网络安全部门提醒这 100 台思科交换机现有的 IOS 版本有很多安全漏洞,需要尽快升级它们的 IOS 版本。
有两种方式实现这样的需求:
自动化运维就是把那些传统上需要手工操作进行维护自动化。在上面的例子中,编写程序对 100 台交换机进行配置和升级,就是典型的自动化运维。在计算机专业的招聘网站,能搜索到大量的运维岗位招聘,
Shell 脚本是实现 Linux 系统自动管理以及自动化运维所必备的工具,除了 Shell,能够用于 Linux 运维的脚本语言还有 Python。
现在越来越多的公司要求运维人员会 Python 自动化开发,在计算机专业的招聘网站中,查询 baidu 发布的运维的招聘要求:
登录后复制
工作职责
- 负责百度运维基础设施(监控 部署 名字服务 容器托管)的稳定高效运行
任职资格
- 熟练掌握 Python/Go/Perl/Shell 至少一门语言
从招聘可以看到,Python 成了运维人员必备的技能,每一个运维人员在熟悉了 Shell 之后,都应该再学习 Python 语言。
2. 运维的基础知识
运维人员需要掌握掌握互联网常用的中间件维护、管理,例如 nginx、docker、mysql、redis 和 mongodb等。
2.1 nginx 简介
Nginx 是一款轻量级的 Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,由于它的内存占用少、启动快、高并发能力强,在互联网项目中广泛应用。中国大陆使用nginx网站用户有:百度、京东、新浪、网易、腾讯、淘宝等。
Nginx 服务器的反向代理服务是其最常用的重要功能,当下流行的技术架构
通常 ngnix 作为整个应用的入口,运维人员需要熟练掌握 nginx 的配置和优化。
2.2 docker 简介
Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到其它 Linux 系统上。
把一个应用部署到生产环境中,需要进行各种安装和配置:
配置非常繁琐、容易出错,使用 docker 可以有效的解决问题:
Docker 对于显著的降低了应用部署的工作量,是运维人员必须掌握的技术。
2.3 mysql 简介
mysql 是一个关系型数据库管理系统。目前 mysql 被广泛地应用在 Internet 上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了 mysql 作为网站数据库。
mysql 的重要特性包括:
运维人员需要熟练掌握管理、检查、优化 mysql 数据库操作的管理工具。
2.4 redis 简介
redis 是一个高性能的 key-value 数据库。redis 是非关系型数据库,将数据存储在内存中,访问的速度很快,能够显著的提高运行效率;与之相比,mysql 是关系型数据库,主要用于存放持久化数据,将数据存储在硬盘中,访问速度较慢。
redis 的配置文件位于 redis 安装目录下,文件名为 redis.conf,通过修改 redis.conf 文件或使用 CONFIG set 命令来修改配置。
redis 提供了大量的配置选项,例如:
3. 为什么用 Python 进行运维
现阶段,掌握 Python 开发语言已经成为高级运维工程师的必备技能,其原因如下:
3.1 复杂的系统管理
在大型的互联网公司中,网络包含有成千上万台服务器,shell 脚本语言适合简单的系统管理工作,遇到复杂的自动化任务需要用专门的开发语言。Python 由于语法简单、拥有强大的第三方库,是完成复杂自动化任务的首选编程语言。
3.2 方便定制需求
存在有大量的自动化运维工具,但是现有的运维软件如 puppet、saltstack、zabbix 和 nagio 多为通用的软件,不可能完全适用公司的所有需求,当需要做定制、做二次开发的时候,如果掌握 Python 编程语言即可轻松完成需求,实现一个定制的运维工具:
3.3 帮助调试优化程序
在开发环境中,可能没有充分测试程序的性能;而在生产环境中,一个业务上线了,通过监控发现: CPU 使用过高、内存占用过大。
如果运维人员完全不懂开发,只能定位到进程级别,即找到占用资源过多的进程,然后将问题交给开发人员处理。如果运维人员掌握一门编程语言、懂开发,能够深入到业务代码,帮助调试、优化开发人开发的程序。
4. 常用的自动化运维模块
Python 的第三方模块提供了自动化运维所需的功能,如:监控系统资源、网络配置等,常用的模块如下:
psutil
psutil 是一个跨平台库能够实现获取系统运行的进程和系统利用率(内存,CPU,磁盘,网络等),主要用于系统监控,分析和系统资源及进程的管理。
dnspython
dnspython 是一个 DNS 工具包,可以用于查询、传输并动态更新 DNS 区域信息,在系统管理方面,可以利用查询功能来实现 DNS 服务监控以及解析结果的校验。
smtplib
smtplib 是一个发送电子邮件的工具包,它对 smtp 协议进行了简单的封装。当监控系统发现问题时,通过调用 smtplib 发送报警邮件。
IPy
IPy 提供了对地址进行处理的功能,主要提供了包括网段、网络掩码、广播地址、子网数、IP类型的处理等功能。
pycurl
cURL 是一个利用 URL 语法在命令行下工作的文件传输工具,cURL支持的通信协议有FTP、FTPS、HTTP、HTTPS、TFTP、SFTP、Gopher、SCP、Telnet、DICT、FILE、LDAP、LDAPS、IMAP、POP3、SMTP和RTSP。
pycurl 是一个用 C 语言写的 libcurl Python实现,可以理解为 linux 下 curl 命令功能的 Python 封装。
scapy
scapy 是一个由 Python 编写的数据包处理程序,它能够对数据包进行伪造或解包,提供发送数据包、包嗅探、应答和反馈等功能,目前很多优秀的网络扫描攻击工具都使用了这个模块。
ansible
ansible 是一个综合的自动化运维工具,基于 Python 开发,集合了众多运维工具的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能。
ansible 提供了二次开发的接口,可以编写 python 脚本请求 ansible 的 接口,开发自己的运维工具。
saltstack
saltstack 是一种基于 C/S 架构的集中化管理平台,管理端称为 Master,客户端称为 Minion。saltstack 具备配置管理、远程执行、监控等功能,saltstack 本身是基于 Python 语言开发实现,结合了轻量级的消息队列软件 ZeroMQ 与 Python 第三方模块构建。
通过部署 SaltStack 环境,运维人员可以在成千上万台服务器上做到批量执行命令,根据不同的业务特性进行配置集中化管理、分发文件、采集系统数据及软件包的安装与管理等。
saltstack 提供了二次开发的接口,可以编写 python 脚本请求 saltstack 的 接口,开发自己的运维工具。