小议海量数据云计算创新

来源:腾讯大讲堂  
2012/5/11 13:25:03
腾讯无线部门日处理运营数据已达10T,如何以最小的代价,实时输出多维度的运营数据?

本文关键字: 海量数据 云计算
一,海量数据的运营压力
 
无疑,无线互联网终于迎来了属于自己的春天:无线互联网各种产品如雨后春笋般涌现,以手机QQ为代表的无线互联网产品迅猛发展;同时,无线网民数也出现激增,据粗略估计,国内无线网民数已达3.5亿。随之而来的,是服务于不同产品的运营分析压力和运营数据的暴发式增长。目前,无线BU日处理运营数据达10T,且涉及不同产品多维度复杂指标的分析运算,已经成为一头当之无愧的大象。如何让大象也能翩翩起舞,以最小的开发代价,实时准确地输出多维度的运营数据,是无线BU数据平台组需要解决的重要课题。
 
于是,以一页式快速配置开发为基础特点的海量数据云计算平台就应运而生了。该平台可覆盖80%以上的统计指标,充分结合灵活性和通用性,最大程度为数据分析人员提高开发效率的同时,完成海量数据的分钟级输出。
 
二,云计算平台的创新历程
图表 1
如表一所示为业界通用的统计分布式解决方案。统计处理机到各业务机拖取日志,单独编写统计代码处理原始日志和数据,将统计结果注入数据库并展示。
 
优点:有利于完成定制化开发
 
缺点:通过编写特定代码完成统计开发的方式造成统计开发效率的低下、代码质量难以保证。
 
在无线数据暴发式增长的情况下,这样的技术架构已经难以支撑更高层次的运营分析。如何归纳提炼出通用性统计指标,复用代码,做到一次开发,多次利用,迅速快捷获得统计指标呢?模板化可配置的分布式运算平台成为必然之路。因此,云计算平台应运而生。
图表 2
如图表2所示,云计算平台采集用户通过配置页面填入的自定义信息,将其转变为xml文件,结合mapReduce计算模板,采用hadoop分布式运算技术,完成海量数据的可配置输出。其特点有:
 
一页式配置开发,提升数据分析效率
图表 3
如图表3所示,经过简单的配置,即可自动在数据库中生成相应计算结果。省去了烦琐的脚本编写过程。
 
以某产品的基础统计为例,神马采集、日志db配置,各种复杂计算逻辑、sql,原有代码为6千多行,至少需要2周左右的时间才能编写完毕,给开发和维护都带来严重的负担。而通过如图表3的配置,可全程通过配置实现零编码统计需求。开发人员实现登录用户数/登录次数/累计用户/新增用户/留存用户/活跃用户/有效用户,开发时间仅为30分钟左右,极大减轻开发人员的负担。
 
统计指标覆盖面广、扩展性强
图表 4
如图表4所示,云计算平台涵盖从常规指标、历史累计指标到用户健康度、用户分析类等不同层次的各种统计指标,已形成可不断扩充的统计指标体系。同时,统计维度还支持普通维度、cube/custom/rollup等复杂维度组合形式。
 
云计算平台的统计指标覆盖率可达80%以上。
共2页: 上一页1 [2]
责编:赵龙
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
IT系统一体化时代来了

2009年Oracle 用Exadata服务器告诉企业,数据中心的IT服务一体化解决方案才是大势所趋,而当前企业对大数据处理的..

高性能计算——企业未来发展的必备..

“天河二号”问鼎最新全球超级计算机500强,更新的Linpack值让世界认识到了“中国速度”。但超算不能只停留于追求..

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918