0 2015-10-15 2015-10-15 3 饿了么技术运营实践 急速发展之体悟 饿了么——徐盎 微信:Randyxu 4 大纲  技术运营介绍  技术运营工作开展  标准化  发布系统  监控  我们在路上 4 5 技术运营介绍(服务好用) 产品 运营 有用 监控 用户 安全 奖惩 改进 容灾 快速 恢复 数据、事件驱动 可用性 技术 运营 好用 连续性 好用 技术运营 5 6 技术运营工作开展 一线伙伴、用户 运营(数据、事件驱动) 运营、客服 安 全 风 控 产研、PM 架构师 N O C 事件、故障、问题、变 更管理 业务运维 基础运维 Oncall、奖惩制度 团队意识、意愿(稳定优先) 团队职责层次图 运营(协作机制) 6 7 7 立足点:可标准化就标准化 接入、逻辑、数据 极客文化:非标准 系统 多机房 横向分层 多操作系统 服务器资源 网络资源 信息及时同步 多种语言 分层层次图 轻重分离Ansible+Salt Stack 分层分模块 Salt Stack 开源组件多:坑多 配置集中管理(Git) 难点 运维操作配置变更 分享 8 进阶:发布系统、发布信息集中管理 ALPHA 扩容是常态,变更多 每天100+发布 BETA 重建 持续集成 甬道 PROD 近20产研部门 分层集中配置 基于云的,持续集成 200+APPID接入 200多APPID接入发布 APPOPS:DEV 1:40+ 发布信息集中管理 难点 每日2000+CI构建 分享 8 9 9 摸索:监控(Log、Metrics、Trace) 发现问题 定位问题 TOPCurrent Trace 分享: Metrics:我们采用的是 statsd_proxy + statsd + graphite + grafana + (bell) Trace:每次请求的后台每次调用、模块的顺序、调用关系、延迟、返回码信息记录下 来,通过分析形成一个调用链 Log:分布式日志查询系统 2分钟响应 1010 我们在路上 1、业务量、人员翻多倍,SLA从99.5%提高到99.95% 2、网络攻击从一月1次服务不可用,到近期一周3次服务稳定 3、从四处救火的无力感,到风险“可控” 4、从惩罚,到产研、OPS联动保障稳定 1111 欢迎加盟饿了么 The way to do really BIG things is to do really SMALL things, and grow them bigger. 极致、激情、信仰 微信ID:randyxu 1212

pdf文档 2015-《饿了吗技术运维支撑义务的十倍提升-徐盎》

安全研究库 > 网络论坛材料 > 2015Qcon > 文档预览
13 页 0 下载 50 浏览 0 评论 0 收藏 3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
2015-《饿了吗技术运维支撑义务的十倍提升-徐盎》 第 1 页 2015-《饿了吗技术运维支撑义务的十倍提升-徐盎》 第 2 页 2015-《饿了吗技术运维支撑义务的十倍提升-徐盎》 第 3 页 2015-《饿了吗技术运维支撑义务的十倍提升-徐盎》 第 4 页 2015-《饿了吗技术运维支撑义务的十倍提升-徐盎》 第 5 页
下载文档到电脑,方便使用
还有 8 页可预览,继续阅读
本文档由 张玉竹2022-04-08 10:45:52上传分享
给文档打分
您好可以输入 255 个字符
安信天行文库的中文名是什么?( 答案:安信天行 )
评论列表
  • 暂时还没有评论,期待您的金玉良言