巫新宇:大家好。我是巫新宇,感谢今天来到现场各位领导、来宾,以及各位媒体朋友。今天我分享的是奥维云网的技术之路。作为奥维最大的成本中心的一个负责人,更是一个所谓的技术人,更多的时候我是站在后台的,很少有机会来到这种场合给大家分享我们的技术。
奥维成立十年以来,一直是以公正、客观的数据公司的形象出现在广大的客户面前。奥维为了应对客户对于行业和市场动态的关注。一直坚持使用各种技术手段,保证给客户带来及时、准确、有效的数据,以及客观的分析。今天我就从奥维这些年技术上的演进,当前奥维的技术能力,以及未来奥维技术方向进行演讲。这是奥维对于技术的口号,奥维云网持续的技术研发投入,只为客户揭示海量数据背后的规律和价值。奥维一直以来一直坚持在技术和创新上,进行大力的资源投入,无论是自建自有的数据中心,还是招募大数据的研发团队,奥维投入了非常巨大的资金和精力。因为奥维云网通过技术投入可以更好更快的搜集和处理数据,可以更有效更深刻的发现数据背后的价值和规律,进而帮助我们的客户洞悉行业和市场的规律,帮助客户在战略决策的过程中占领先机。
这个页面代表了奥维技术演进的路线,在我们从数据的存储载体上来说,奥维技术的演进之路包括单机时代,关系型DT时代和分布式大数据时代,奥维成立于2017年,在成立之初奥维在开始一段时间内把主要的精力是放在行业数据的搜集整理,以及行业分析方法论的一些研究上,对于技术则采用了分析人员更加擅长的各种单机工具,比如Excel,快速的建立了奥维对于整个行业的影响力。在公司前期发展过程中这种方式可能是对公司来说最有利和最有效的。但是公司并没有止步于此。在公司的业务逐渐步入正轨,在各种产品品类和数据来源更加丰富的情况下,客户对于数据的吃力要求和处理的一些场景也逐渐的增加。那个时候公司决定投入大笔资金购入商业的软硬件,开始招募研发团队,将个人电脑上存储的数据集中放到关系型数据库产品中,迈出了奥维从商业工具到技术自研的第一步,从那个时间起奥维在技术投入这条路上就越走越远。
在大数据成为这个时代的热词的背景下,奥维敏锐的认识到,只有更多不同来源的数据,以及及其消耗计算资源的数据挖掘的算法,才能为客户带来更多的价值。而那时的技术选型技术关系型DB,对于海量数据以及复杂的数据挖掘,这种场景已经不能适用了。在这种背景下奥维提出了自己的大数据战略。再次的开始投入大量的资金,重新招募大数据相关的软件研发人才,搭建了自己的数据中心,购置了大量的存储计算资源,并且为了更快的,更有效的搜集数据,我们在云端也购买了很多的采集用的云端服务器。基于我们这些投入,我们现在开发出了很多的大数据行业的应用,其实奥维的技术之路就是奥维对于挖掘数据价值的追求之路。而未来奥维还会继续坚定的加大技术投入,在创新之路上一直往下走。
下面我介绍一下奥维的一些技术概览。对于当前奥维的大数据体系,可以用三个词来概括:稳定、高效、安全。所谓稳定,就是为了满足高效的数据采集和分析工作,奥维在高效、安全、容错可横向扩展方面进行技术选型,采用业内成熟的数据底层处理框架和工具,目前奥维底层应用的业内非常领先成熟的各种框架技术,包括Hadoop,Spark,Docker,等等,这些工具为奥维数据产品开发提供了有力的支撑,为奥维业务产品提供海量的数据采集存储和稳定运行提供了良好的环境。所谓高效,软件应用我们目前看到的我们大数据应用,更多的是一些软件应用,在互联网时代产品研发过程中,产品推出时间要求会非常高,奥维应用了互联网时代非常成熟的软件开发方法论,强调了团队的分工配合,降低技术人员对技术全面性的要求,通过加强团队内部各种开发决策的沟通合资,进而降低软件产品和我们这些大数据应用的开发风险,为高效的保证客户价值的获取提供全面的流程支持。安全,奥维明白数据本身不但能带来价值,也隐藏着巨大的风险,为此奥维不惜花巨大的成本,将我们所有的服务器资源托管在拥有高速互联网络的核心运营方的5A级机房中,保证了服务器资源的安全和稳定,我们所有原始数据的访问逐级审核,所有的基于硬件的防火墙全部的购置,包括我们一系列对数据服务器安全加固的方案,保证了我们底层的数据在我们安全控制范围之内。而具体奥维目前IDC拥有的能力如何,我给大家看几个指标。我们奥维现在存储能力,现在已经,这块我写了1PB,其实我们现在已经在1PB以上,是PB级。因为我们现在马上又有一批新的服务器资源要马上安装到我们的IT中。我们策略是原始数据存放十年,多维清理数据存放三年,日志数据保证三个月,业务数据按时间粒度定时的刷新。吞吐,奥维的IDC当前大数据集群里每天的数据控制量大概15TB左右。奥维数据搜集是实时带过的,每日汇聚公司所有来源的数据,包括运用的行为,电商的监测,以及我们行业交换的一些数据,在这些数据到达我们数据集群之后,每日执行了大量的合并,去重,汇聚,挖掘等数据任务,将最原始的非结构化数据生成我们可以为我们的客户提供价值的数据,在这个过程中我们每日的集群处理大概将近这个数,1000。很庆幸的是我们不用将中间处理的数据实时保存,我们的原始数据没有这么大,但是每天产生的临时数据量真的是很大,1000。奥维每日固定运行的数据处理任务的个数是以千计算的。将数据变为有价值,数据不行,还要通过我们各种计算任务数据进行分析处理,挖掘,我们的集群每日通过运行的这一千多个任务,对我们所有的数据来源,过来的数据根据校验清洗。这个是我们目前相当于奥维技术底层数据存储平台的能力。
奥维未来两年的技术愿景:其实对我们的客户而言,基于某些安全和隐私的顾虑,客户很多内部的数据是不会开放给奥维,也不会开放给其他三方。这样做风险很大。而我们很多的现有的大数据产品都是基于我们斗争这个行业,比如电商,比如自有的SP的搜集,但是不能触达到客户内部的数据。奥维期待在未来两年的时间内,搭建属于自己开放标准数据平台,建立适合行业自身的算法库。开发可以运行在客户环境侧的边界计算服务,通过这种方式奥维期待可以把客户内部的数据与奥维提供的行业级的数据进行整合、分析、挖掘,进而更加高效的获取数据价值和规律。这是未来奥维两年核心要做的一个事,也是我们技术团队要做的一个事情。
今天我的汇报就到这里,谢谢大家。