京东:PB级数据价值发现
拥有一亿用户、营业规模达数百亿元的大型网络零售企业京东(JD.com),在大数据应用领域实现了分布式架构与传统BI工具的有机融合。
成立于2004年的京东商城(以下简称为京东)在2012年的交易金额突破600亿元,相当于每秒就会产生2000元的交易额。在网络零售市场深耕近十年之后,京东也正式迈入了PB级数据管理的新时代。对企业而言,PB级(1PB=1024TB)的数据管理算得上是衡量其数据规模和管理能力的一个重要标尺。目前,全球PB级数据管理俱乐部已经拥有Facebook、淘宝等重要成员,能够跻身其中对京东而言是荣誉,也意味着挑战。
“针对业务数据快速增长的情况,我们在2012年正式启动了大数据平台的搭建。这个自主开发的平台基于分布式的技术,支持异构数据集市,同时也很好地利用了传统BI的展现层技术。”京东副总裁李曦说。目前,李曦正带领着300人的技术团队不断地改进和完善京东从数据的获取、平台搭建、分析到应用的电商全流程业务数据管理工作。在2012年加入京东之前,李曦在美国硅谷工作多年,相继服务于Siebel、甲骨文、谷歌等公司。
全流程大数据管理
在数据获取方面,京东对各个购物频道的交易数据、出入货数据、逆向物流、用户浏览日志等数据进行了全面的收集,同时也会从互联网上抓取一些商品价格等业务相关信息。这些数据会被汇总和存储在京东自主研发的大数据平台之上。这个平台支持不同的数据集市,例如分布式的数据集市,或者是甲骨文、MySQL、微软SQL Server等关系型数据集市。平台底层的数据存储和离线批量数据运算由Hadoop实现,流式计算方面则采用的是开源实时数据处理框架Storm。
在承载汇总、存储和查询任务的大数据平台之上是大数据分析层,这一层级主要涉及到一些建模的工作。例如针对用户、商品、商家、促销、反作弊、风险控制、精准营销、运营优化的数据建模等。而这些数据模型最终的分析结果会在应用层得以展现。目前,京东已经能够向内部和外部用户提供BI(商业智能)服务。
其中,内部BI系统向从业务员到高级管理者的不同层级数据消费者提供各种门类的业务报表和历史报表。而对于在京东售卖货品的商家,京东数据罗盘则可以向他们展现店铺流量、订单数量、实时客流等关键业务指标,以及节日促销指数、价格弹性、用户喜好等分析功能。
谈到传统BI技术在大数据时代所扮演的角色,李曦表示,传统BI手段在大数据应用环境中仍然有其价值,尤其是在呈现能力方面。他说:“京东早期的数据分析建立在传统BI之上,它所采用的中央集中式模式会在主机应用层面造成瓶颈,但传统BI数据集中的理念并没有过时,特别是其功能强大的呈现工具同样适用于互联网行业。”目前,京东在大数据处理的展现层仍在使用甲骨文BIEE等传统BI工具。
“作为一家电商企业,京东的零售业务数据基本上是结构化的,而用户访问行为数据又是非结构化的,因此京东全流程数据汇总实际上是把结构化、半结构化和非结构化数据融合起来的过程。”李曦说。他表示,这样的数据组成结构实际影响了京东的大数据技术选择。在数据仓库层面,京东选择了可扩展性强的分布式架构,而在应用层将相对发达的BI工具加以有效利用,实现了传统与创新的融合。
大数据价值就在身边
京东对大数据的利用不仅体现在内部管理和服务商家方面,如果你是一位顾客,只要访问JD.com就能感受到大数据技术为您营造出的购物体验。在这里,商品的搜索、推荐都是基于京东大数据平台的实时汇总和结果推送。比方说搜索的排序就可以基于用户的点击习惯、用户好评度等指标进行个性化定制。站内广告和联盟广告的推送也可以根据相关的指标进行定向发布。
李曦表示,经过近三年的探索,大数据技术的价值正在京东业务运营的不同领域得到逐步的体现。基于大数据的汇总与分析,京东正在不断完善包含电子邮件、短信、广告等在内的精准营销体系。站在业务运营优化角度,大数据技术能够切实提升工作效率,为京东带来直接的成本节约,并营造出更优的客户体验。