运维的定义

百度百科上是这样解释运维的: 运维,这里指互联网运维。 一个互联网产品的生成一般经历的过程是:产品经理、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。 运维,本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。

运维的职责

运维的职责覆盖了产品从设计到发布、运行维护、变更升级及至下线的生命周期,各个阶段的职责包括:

  • 产品发布前 这个阶段运维工程师的职责是参与设计并把有关运维准入,主要包括: (1) 产品的业务熟悉; (2) 产品架构设计的合理性评估,包括是否存在单点,是否可容错,是否有强耦合等,同时需要提供产品设计的合理性建议以使产品能够满足上线发布并稳定运行的基本要求; (3) 资源评估,包括所需的服务器资源、网络资源以及资源的分布等,同时把相关产品对资源预算申请的合理性,控制服务成本; (4) 资源就位,将申请的服务器及基础环境/域名准备就位。

  • 产品发布 这个阶段运维工程师负责发布的具体工作,将具体的软件和系统/硬件资源整合形成产品并对外提供服务。 对于已在线服务的更新也属于发布范畴,这个时候的产品发布一般要保障在线发布,在不中断对外服务的情况下完成产品的升级。对于大型复杂的变更也存在中止服务部署完成后再重新提供服务的情况,但这种情况需要运维工程师通过尽可能的技术手段来避免。

  • 产品运行维护 这个阶段的主要工作包括: (1) 监控:对服务运行的状态进行实时的监控,随时发现服务的运行异常和资源消耗情况;输出重要的日常服务运行报表以评估服务/业务整体运行状况,发现服务隐患; (2) 故障处理:对服务出现的任何异常进行及时处理,尽可能避免问题的扩大化甚至中止服务。这之前运维工程师需要针对各类服务异常,如机房/网络故障、程序bug等问题制定处理的预案,问题出现时可以自动或手动执行预案达到止损的目的。除了日常小故障外,运维工程师还需要考虑产品不同程度受损情况下的灾难恢复,包括诸如地震等不可抗力导致大规模机房故障、在线产品被删除等对产品造成致命伤害的情况。 容量管理:包括服务规模扩张后的资源评估、扩容、机房迁移、流量调度等规划和具体实施。 产品性能/成本优化 产品对外提供服务最重要的一点是用户体验,用户体验中非常重要的是产品的可用性和响应速度。而如何用最合理的资源(如机器、带宽等)支持产品提供高可用和高速度的用户体验,这也是运维工程师的重要职责。

  • 产品下线 发展良好的互联网产品将始终在线对外提供服务,但互联网产品快速迭代,也存在相当多孵化的产品最后被淘汰的情况,这些产品都需要做下线处理,这个过程运维工程师主要做好资源回收的工作,将机器/网络等资源回收后纳入资源池中供其它服务使用。

运营的定义

百度百科上是这样解释运营的: 运营就是对运营过程的计划、组织、实施和控制,是与产品生产和服务创造密切相关的各项管理工作的总称。从另一个角度来讲,运营管理也可以指为对生产和提供公司主要的产品和服务的系统进行设计、运行、评价和改进的管理工作。

运维与运营的区别

运维的核心是基于技术的系统、平台、数据库运行维护。 运营是基于产品和用户的。 具体区别如下:

  • 1.目标不同。运维是以系统稳定运行作为导向的,而运营则是以客户价值为导向。

  • 2.工作内容。运维更多指的是交付层面的内容,而运营则需要在运维的基础上具备更多的经营思维。

  • 3.关注点不同,运维偏技术,而运营偏业务。

  • 4.对团队要求不同,运维偏向于做,更强调技术能力;运营偏向于想,强调规划管理能力。