CloudIn云英公有云自动化运维实践

来源:www.cctime.com 2016-05-30 11:33:00

--云英技术VP胡湿

5月19日,CloudIn云英技术VP胡湿先生应邀在第八届云计算大会“云计算IT基础设施与自动化运维”分论坛上作了以“公有云自动化运维实践”为主题的演讲,详细介绍了云英的自动化运维1.0平台以及初衷,以下为演讲实录:

云英是去年9月份成立的一家创业公司,定位在IaaS和PaaS的综合云计算厂商,专注于为创客和行业客户提供云计算服务。

这张图传递两个信息,第一,云英这家创业公司的理念是给大家提供易用、高效的云。第二,通过我们产品的不断丰富,最终使云英成为很多公司工作的平台,这是我们产品的定位或者原则。

我们2015年9月成立,12月产品上线,一开始提供云主机、云存储、云网络、云安全、云监控,最近刚刚上线了自动化运维的产品。可以说,我们定位在IaaS和PaaS,自动化运维是我们PaaS产品的初探。

登陆云英官网,可以看到已上线的自动化运维产品,通过控制台可以给公司的运维人员设置相应运维的权限。而运维人员登陆控制台,可以进到运维的控制台界面去,同时针对研发人员也有相应的功能。未来云英平台面向多种角色,比如采购、运维、研发人员等都能找到想要的功能。

为什么要做自动化?

从传统IT进入到云计算时代,虚拟机逐渐替代物理机,除了底层媒介改变,用户承担的工作和物理机时代相比并没有减少,甚至增多了。

在企业IT的整体环节中,现有的云计算只是解决了最初的资源采购与创建、组网及系统上架。但后续包括资产管理、系统初始化、权限分配与控制、系统开发与测试、服务注册及管理、系统部署上线、在线维护等还需要花费大量时间和人力。这意味着,云计算其实还有很大提升空间。

现在云计算用户以创业公司和中小公司为主,他们没有足够的人员去开发各种运维系统,但是在使用云的时候会遇到相关的问题,耗费大量的人力。比如如何选择机器配置能够既满足业务又控制成本,以及软件如何接入,如何提高上线效率,如何做质量监控,如何应对业务爆发式的增长,主机如何绑定服务,有大量的问题需要自动化的平台和产品去解决。

传统IaaS从财务角度来看,解决了从一次性投入到按需投入,物理机变成了虚拟机,但只是底层媒介的改变。PaaS主要针对开发运维人员,开发、测试、部署、监控等环节是一体化的流程,之间有很强的关联性,需要大量的人将流程维护起来。同时,由于一些公司IT能力不足,在应对业务高峰时,IaaS只是变成了虚拟机,没有其他本质的变化,因此不得不过量配置。开发人员作为最上层,要适应各种各样的PaaS服务,同时把PaaS服务关联起来形成数据流动。这就是目前整个云的现状。

云英如何做自动化?

那么云英怎么解决这些问题呢?首先,提升底层虚拟机的实时调整,不再需要过量配置IaaS资源。其次,把开发、测试、运维整体流程变成一个核心骨干的产品,当开发、测试等阶段有第三方业务时,往固定化的流程中插入即可。

我们定义这一层叫PaaS基础层,形成整个流程的骨干。PaaS基础层与IaaS联系紧密,解决数据关联和流动的问题,应对突发业务,从而让上层业务,也就是PaaS的用户可以嵌进来。可以说,现在大部分PaaS服务是一滩散沙,只有变成一个体系之后,业务研发才可以只关注coding,不需要做底层的关联工作。

系统运维自动化总览

采购人员接过云管理账号之后,第一步要做资源创建,秒级创建到业务分组、配置管理、跳板机系统,机器分配到各个业务部门,业务部门拿到相应的机器资源后,根据业务场景进行初始化,如配置管理、系统优化,以及标准监控的工作,初始化完成后进行权限分配。云英构建的产品,将资源创建到可投产使用的时间缩短5倍以上。

业务运维自动化总览

业务运维自动化的目标是持续集成,快速迭代。有一些APP公司急需做到周迭代,那么在迭代过程中首先要解决的就是把公司的业务、产品进行标准化抽象,把产品、程序变成一个个服务模块。服务的标准化抽象就是程序、数据文件、配置文件、部署脚本。

云英自动化平台1.0管窥

云英自动化平台1.0系统,包括了基础服务(系统源/软件中心)、账号体系、CMDB子系统、跳板机、配置管理系统、权限管理等功能。

针对不同的资源,账号的权限很灵活,提供主子帐号的概念,融入采购人员、系统管理员、运维工程师、研发工程师等it流程环节的不同角色,有效平衡工作职责和权限映射。CMDB子系统提供精准、灵活可定制的资产管理库,可以管理整个资源的状况。跳板机支持创建关联等操作、登陆集中控制、行为审计、支持批量执行功能。配置管理系统是基于Salt+Docker来做的。

权限管理具备公钥认证体系,提高安全性,云英平台本身针对扫密码的抗攻击能力很强。另外还支持RBAC机制、可视化操作,支持权限审批、驳回、过期重申等操作。

总结一下,云英的自动化运维1.0平台有这么几个特点:多重视图,简单易用;单点登录,高效管理;功能齐备;平台化管理,按需使用。

从架构层面来说,云英自动化运维1.0系统实现了跨机房支持,并使用加密通道,支持控制流和数据流分离,实现了区域自治和多层次容灾的高可用。

配置管理系统设计与云资源无缝结合,依托SaltStack+docker构建,支持配置管理及分发,支持远程命令批量执行,兼容salt协议及内置模块。

云英自动化运维1.0系统提供了基础CMDB功能,支持快速实时更新,秒级资源创建、迁移和销毁,各种资源数据的可视化和搜索,并根据业务分组管理分配资源。

基于自动化运维平台需求,云英设计了自己的基础网络服务模型,要解决的问题是通过网络打通提供公共服务,如内网源服务、安全服务、运维服务等。

电商客户案例

云英一个偏金融的电商客户在使用自动化运维平台之前遇到了一系列问题:基础服务方面,配置代理支撑内网主机访问外部NTP/软件源,访问外部源和NTP等在业务高峰期时占用流量,影响业务;权限管理方面,多次密码被破解入侵,工程师权限混乱,基本都有root权限,责权不分,无法做行为审查,员工离职或职责调整后需要修改root密码,通过邮件、口头方式完成权限管理,信息丢失混乱;管理操作方面,批量配置管理功能缺失,构建puppet等管理工具缺乏人力,批量执行工具缺乏,需要自行编写脚本。

使用自动化平台1.0效果显著:在基础服务方面,客户使用了系统源和NTP基础服务,流量节省10%,稳定性和时延大幅提升;权限管理方面,使用了权限管理、跳板机,责权明晰,因误操作导致的故障大幅降低,权限管理人力成本下降至少30%;管理操作方面,使用配置管理系统后,整体管理效率大幅提高。

结语:

我们最终想做的事情,是云时代的云。如今云计算已经成为共识,但行业变革刚刚开始。大家看到IaaS是增长最快的,从2015年起,大量企业不再购买物理服务器,而是去买IaaS。与此同时,开发和运维人员的人力成本不断上涨。云英会专注在提升云的效率,把大量经验做成相应产品。这其实是一种变革,好比汽车从烧油变成用电,未来甚至无人驾驶,那才是最大的变革!

点击查看原文

相关链接