文库搜索
切换导航
首页
频道
法律法规库
安全标准库
行业政策库
安全研究库
项目案例库
会员中心
首页
法律法规库
安全标准库
行业政策库
安全研究库
项目案例库
上传文档
会员中心
阿里搜索实时计算及在线学习 系统Pora介绍 阿里巴巴-搜索事业部-梁义(毅行) liangyi.ly@alibaba-inc.com 2015-6-3 2015-6-3 提纲 • 概要介绍 • 实时计算 • 在线学习 Pora概况 • 基于用户日志的实时计算和在线学习系统 • 海量数据处理 – 每天处理几百亿条实时消息 – 沉淀用户行为、商品访问、特征权重海量数据 – 集成算法模型,实时更新在线服务 • 端到端秒级实时 – 从用户行为发生到线上感知的全链路反馈 • 基于Java实现 业务场景 • 应用场景 – 实时排序/流量调控(成交提升10%) – 实时反作弊 – 实时个性化搜索/推荐 • 业务线 – 淘宝 – 天猫 – 聚划算 – 手淘 – 1688 性能现状 • 实时性 – 端到端(从日志发生至线上生效)平均延迟3-4s – Pora本身处理耗时在200ms左右 • 数据量 – 每天实际处理约500亿用户/商品行为消息 – 双11预计超过2000亿 • QPS – 正常峰值超过100万/s,双11预计超过400万/s – 对应内部HBase QPS超过500万/s,双11预计 超过2000万/s 提纲 • 概要介绍 • 实时计算 – 总体设计 – 核心层 – 业务层 • 在线学习 Pora总体架构 Pora垂直分层 Pora核心层(Tec)特点 • 高吞吐,低延迟,易嵌入,跨平台 – DAG实时计算框架 • 通用,少开发 – HTable存储抽象及通用实现 – 通用数据结构抽象 – 通用处理逻辑抽象 • 易维护 – Metric、Trace、通用工具集 • 松耦合,可扩展 11 DAG实时计算框架 • 数据接入 – Container,比如IStreamContainer通过Input Format读取输入 数据(含数据源信息) • DAG处理链 – 针对数据源配置所有处理节点(Executor) – Executor间通过输入输出依赖自动形成内存DAG ,允许并行执行 • 多线程并发 – 每个处理线程有一个独立的DAG实例 – 线程内置一个FIFO BlockingQueue作为实时输入数据buffer – 异步实时获取buffer中的最新一批数据驱动DAG执行 • 线程数据分发 – Round Robin – Field Dispatching 12 数据源及DAG处理链 多线程及分发机制 14 Pora业务层工作 • 配置和实现各个业务Executor – – – – 解析输入实时消息 关联查询相关用户、商品数据,并加工处理 调用算法插件 更新用户、商品数据及在线系统 • 配置DAG – 配置Executor的参数、输入、输出 • 其它配置 – 数据源InputFormat – Dispatch方式 – Worker数、线程数、buffer size、batch max等 15 Pora业务层特点 • 统一可扩展的算法插件接口 – 支持同时提供用户、商品所有数据给算法插件 • 统一完备的用户行为数据 – 点击、搜索、收藏宝贝、立刻购买、加购物车、 成交... – 融合PC、无线端的行为历史 • 实时商品数据 – 数据按行为、来源、含义分层实时统计 提纲 • 概要介绍 • 实时计算 • 在线学习 – 特征实时 • 用户维度 • 商品维度 – 模型实时 17 特征实时-用户维度 • 输入数据 – 用户实时行为actionInfo – 实时累计用户行为历史actionHistory – 用户特征数据userProfile • 算法插件 – userProfile=f(actionInfo, actionHistory, userProfile) 特征实时-商品维度 • 输入数据 – 商品实时累计数据auctionProfile – 商品特征数据auctionMlrdata • 算法插件 – auctionMlrdata =f(auctionProfile, auctionMlrdata) 特征实时应用案例 • 用户维度 – 个性化搜索 – 个性化推荐 • 商品维度 – 实时排序/流量调控 (成交提升10%) – 反作弊
2015-《阿里搜索实时计算和在线学习联系系统PORA介绍-梁义》
安全研究库
>
网络论坛材料
>
2015Qcon
>
文档预览
28 页
0 下载
18 浏览
0 评论
0 收藏
3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
下载文档到电脑,方便使用
下载文档
还有
23
页可预览,
继续阅读
本文档由
张玉竹
于
2022-04-08 10:40:15
上传分享
举报
下载
原文档
(1.74 MB)
收藏
分享
给文档打分
您好可以输入
255
个字符
安信天行文库的中文名是什么?( 答案:
安信天行
)
评论列表
暂时还没有评论,期待您的金玉良言
最新文档
2015-《针对失效做设计——Uber的系统伸缩之道-Matt Ranney》
2015-《在Spark上构建硬件加速的分布式神经网络架构-王奕恒、黄晟盛》
2015-《云原生应用平台架构解析-张海宁》
2015-《云时代运维转型:工具化,产品化,运营化-钟红军》
2015-《游戏运维之“痛”并快乐——记腾讯游戏运维实践之路&运维价值探索-洪楷》
2015-《应用性能监测:Java Instrumentation技术实践-廖雄杰》
2015-《选型指南:CDN与DNS的设计与开发-李孟》
2015-《物联网数据获取之路_林小进》
2015-《为团队埋下变革的种子-姜丽芬 王宇》
2015-《微软热爱Linux——我们的开源之旅-K. Y. Srinivasan博士》
1
/
28
评价文档
0 个金币
下载文档(1.74 MB)
回到顶部
×
下载提示
文档下载,需要消耗您
0
个金币。
您确定要下载
2015-《阿里搜索实时计算和在线学习联系系统PORA介绍-梁义》
文档吗?
×
分享,让知识传承更久远
×
文档举报
举报原因:
垃圾广告
淫秽色情
虚假中奖
敏感信息
人身攻击
骚扰他人
×
收藏文档
收藏文档
请选择收藏夹
请选择收藏夹
没有合适的收藏夹?去
创建收藏夹