今日要闻
雷锋网记者在云栖大会现场参加了一场计算智能峰会,对阿里巴巴的计算引擎系统产生了极大的兴趣。除去现场聆听阿里巴巴集团副总裁周靖人、阿里巴巴研究员&PAI平台负责人林伟、阿里巴巴资深技术专家&Dataworks负责人徐晟、阿里巴巴研究员&Maxcompute负责人关涛、阿里巴巴研究员&实时计算负责人蒋晓伟等五人的演讲,更是在会后对其进行了深度采访。在整个对话交流中,对阿里巴巴的新一代计算引擎有了全局的掌握。
我们了解到,阿里巴巴计算平台的新一代计算引擎,支撑了整个阿里经济体90%以上的结构化、非结构化数据的存储、交换、管控,数据规模已超EB级别。其中:
MaxCompute是阿里巴巴自主研发的大数据计算引擎,在阿里集团历届双11海量数据的大规模并行计算中,在高并发、吞吐量等各方面承受住了大规模计算的考验,在2015年Sort BenchMark排序竞赛中,一举打破四项世界纪录,奠定了阿里集团大数据离线计算引擎的地位;
Blink作为Flink的演进版本,是阿里集团最新一代实时计算引擎,提供了流式数据计算能力,能够支持百万级吞吐量的作业,计算可达秒级延迟,关键指标超越开源Storm性能6到8倍,计算成本远低于开源软件。自2017年以来,经历了双11实时业务数据复杂分析考研的Blink已成为阿里集团最重要的实时计算引擎。
PAI是阿里巴巴机器学习平台,无缝对接了强大的计算引擎及大数据研发平台,具备超大规模稀疏模型的CPU系统级优化、大规模图像&语音&文本领域的GPU系统级优化、在线推理加速需求的模型压缩等核心能力,支持在线学习、深度学习、增强学习及迁移学习等多种学习方式。
而现场,阿里巴巴展示了新一代计算引擎,布局整个大数据和AI生态链,这就是DataWorks。有个很形象的比喻是:如果把MaxCompute 、Blink、PAI等类比为一台PC的CPU、GPU、SSD等硬件设备,那么DataWorks就是这台大数据PC的Windows操作系统。可见,DataWorks是对计算引擎整体上进行了封装。
据雷锋网了解,实际上,DataWorks这个项目早在2009年就已启动,到目前已经成为阿里集团数据开发的标准平台,支撑著阿里集团、蚂蚁金服、菜鸟、优酷、高德等所有事业部的数据开发任务。
进入公共云市场,要前推到2013年,那时候DataWorks系列产品在全世界16个国家和地区实现部署可用,包括新加坡、悉尼、香港、德国、马来西亚、日本、美国等。当然也在国际上揽获了一系列奖项,比如2017年,以DataWorks为主体的阿里云数加,获得了国际软博会金奖;2018年,DataWorks名列国家大数据博览会十佳产品,荣获最佳案例实践奖;在2018国际权威评测机构Forrester公布的Cloud Data Warehouse第二季度的榜单上,代表阿里云,携手MaxCompute,获得了世界排名第二的成绩。
在对话交流环节,雷锋网就业界关心的话题向5位平台负责人进行了提问,以下为对话实录,雷锋网做了不改变原意的编辑与整理:
提问:Dataworks对计算引擎做历史传承,有何目的?
周靖人(阿里巴巴集团副总裁):阿里巴巴从2008年、2009年就开始做大数据和云计算,之前都是为了支撑核心的电商业务,也是随着阿里巴巴的业务,大数据的平台得到了高速的发展,这个平台也就是Maxcompute的前身。其实今天所发布的所有的计算引擎包括Maxcompute、Blink、PAI、Dataworks,都不是简简单单一个产品,首先都是在阿里巴巴自身的业务场景里面取得了巨大的成功,也是帮助整个业务发展起到了一个至关重要的作用。
经过这么大的业务体量高强度的验证过后,我们也希望把同样的技术普惠到全球,特别是中国的企业用户,所以才把这些产品通过阿里云的方式对外输出,去服务各行各业的企业用户。所以从历史来讲,因为至少在中国,阿里云整个计算平台应该是历史最悠久,当然可以说也是技术积累最深,同时也是经受住了非常大的业务考验,具有真正企业级服务能力的大数据的智能计算平台。
提问:产品的发布看似顺理成章,实际上最难点在于?
周靖人:每个业务都有不同的计算引擎,导致很多不同业务采取的计算方案还是有一些不一样。随着阿里巴巴整个业务的体量发展,随着整个核心技术的研发,整个阿里巴巴集团也越来越体会到我们今天需要有一个统一、高效的计算平台,会支持各种的计算模式,而不是单一的引擎。难点在于,怎么样保证高性能、效率、功能和稳定性,甚至安全等等。
我们也非常清楚整个大数据以及人工智能的开发,不是简简单单只包含了一些引擎的优化,整个的流程是非常长的。训练一个模型,不是说模型就不变了,很多时候是因为所有的应用各方面不断产生数据,新的数据会给我们带来一些新数据,我们也会通过一些新的数据来修正我们之前的模型,同时修正的模型也能实时去进行发布,中间的每一步都至关重要。
提问:计算平台会随着阿里云的全球化而全球化?
周靖人:是的,也就是说我们今天为中国公司的业务国际化提供了一个坚实的基础。随着他们的业务发展,其实他们并不需要担心是不是到了另外一个国家,是否需要把整个应用移植到另外一个平台。今天随着阿里云的成长,有了成熟的技术,他们可以使用同样一个引擎,能够在不深度变化他们的APP,就可以很快把他的业务拓展到海外,我觉得这都是我们整个计算平台、阿里云云基础建设给用户提供的巨大的优势。
提问:做一站式平台,是否意味着目前第三方的IT外包公司就会消失?
周靖人:恰恰相反。阿里巴巴提供的是一个基础的开发的环节,今天还需要大量甚至更多的第三方公司在上面,根据他们的业务特征、业务专长去搭建更专业的平台、更专业的引擎。我也相信由于云计算、大数据的发展,今天其实跟第三方的公司会促成更大的机遇。因为有了这样一个云平台,有了这样一个大数据的系统,我们的合作伙伴真正意义上有了机会接触更大的用户群体。
提问:机器学习领域,在充分训练的前提下,是不是深度学习网络参数越多,数据量越大,效果就越好?
林伟(阿里巴巴研究员、PAI平台负责人):不是的。模型越大参数越多,其实会造成更多的问题——因为参数表达能力空间更大。这就是为什么我们在训练的时候要控制一些参数规模。因为机器学习是捕获背后的逻辑关系,但是它的逻辑关系从真实和自然来说不会有那么多。如果一个很大的参数,理论上其实是在违背它的自然规律。所以并不是数据越多就越好。
但为什么深度学习最近这么热?是因为有很多潜在的关系,人是看不到的,所以它通过一个很深度的网络,通过数据的能力,可能原来达不到的好效果,现在就能达到了。但大家不要忽略了数据。我们做机器学习的都知道数据最关键,如果数据都是一些不准确的数据,那是无法训练出一个靠谱的模型。
提问:阿里为什么会选择Flink作为新一代流式计算引擎?Flink目前有哪些核心的技术值得外界关注?
蒋晓伟(阿里巴巴研究员、实时计算负责人):2013年之前我们开始Flink项目,调研了业界所有的计算引擎,当时的目标不是简单选一个流计算的引擎,我们只想选一个通用引擎,我们坚信在不同的计算模式下,有一个东西能支持多种计算场景。但由于很多流计算引擎需要你在延迟和吞吐之间做一定的取舍,所以在本质上流计算引擎是不可能做到最优的,特别是在对延迟要求比较高的时候,它是很难满足这种需求。所以这时候我们开始调研其他的各种引擎。经过调研之后,我们觉得Flink价格最符合我们的理念。
Flink的出发点跟spark正好相反,它是把流计算当做基础,能够实现连续处理。这样的批处理用流计算来做(雷锋网注:批处理和流处理基本的区别在于每一条新数据在到达时是被处理的,还是作为一组新数据的一部分稍后处理。批处理指稍后执行,流处理指立即执行)。Flink这种价格能够长期让我们在流计算和批处理做到非常完善,所以我们决定用Flink。
过去三四年时间里,我们在Flink引擎上做了非常多的投入:Flink的多版性能改进、引入新的价格、共享更好的代码等等。在阿里内部,由于我们有更好、更先进的硬件架构,我们开始支持存储分离计算架构。在这种架构下,流计算引擎在失败的时候能更快速修复,使我们能够更加动态适应流量的变化,来更新我们执行计划。
提问:为什么阿里计算引擎今天要做一站式?
徐晟(阿里巴巴资深技术专家、Dataworks负责人):我们希望对用户来说是一个统一的体验。至于说用户要解决的问题,很可能我们下面有不同的引擎来解决不同的问题。因为对于用户来说,我希望他看到的是一套产品,而不是让用户做选择题。至于用哪种技术,可能对用户来说就不是那么重要。毕竟对用户来说,我们看到的是同一个层,我们不希望用户更多介入怎么解这个问题。
今天用户如果要做模拟训练还是要做什么事情,我就相应给你做事情就好了,至于说代码最后跑到什么地方,我觉得对用户来说不太关注。毕竟,谷歌做AlphaGo不是为了下围棋,而是证明有能力提供这样一个平台来帮大家解决问题。这也是我们的初衷。
您可能敢兴趣
声明: 凡注明为其他媒体来源的信息,均为转载自其他媒体,转载并不代表本网赞同其观点,也不代表本网对其真实性负责。如系原创文章,转载请注明出处; 您若对该稿件内容有任何疑问或质疑,请即联系,本网将迅速给您回应并做处理。邮箱:mail@laishu.com
为您推荐
校园贷再曝乱象这到底是什么情况,了解最新消息?
2018-04-15 21:34
8月分手魔咒:不平衡的爱情注定走不远
2018-08-21 11:37
饮食提醒切记红薯的“死对头”
2018-02-21 03:39
红唇族加烟酒 罹癌增123倍 医师告诉你危害不只这些...
2019-11-06 17:37
秋葵,生菜
2020-01-27 07:42:15
滑坡毁百年铁轨 怎么回事
2019-02-02 05:46
解读改善你的饮食的3款创新菜肴
2018-02-25 03:39
李湘为女儿庆生 一家人真是太有爱了
2019-01-25 19:26
生完二胎后首露脸!福原爱瘦14公斤身材纤细
2019-07-27 12:32
2018CBME孕婴童展益生碱奏响全球备孕最强音
2018-08-01 13:46
月经不调饮食来调
2018-04-01 10:37
粗盐热敷4个部位治好4大顽疾可惜很少有人会用
2019-03-05 22:46
讨厌金牛座的人 是因为不懂金牛座 他们其实和你想像中的不同
2019-07-02 16:13
他才出生四天,四肢黑到要截肢、一碰就可能死亡!这一切只因爸妈一个无知的决定…
2018-02-17 12:45
石家庄现天价板面 为何如此天价 哪些人来吃
2019-02-02 04:47
统一西武双狮联名活动 日职传奇球星东尾修开球
2019-07-15 21:31
街头最红三大台式水果茶!!斗分量斗特色斗选择
2018-05-13 22:37
9个月婴儿如何进行认知能力训练
2018-02-15 01:00
最会伤人、伤人至深的十二星座排行榜 人必有一死 死于天蝎或死于水瓶
2018-05-03 06:34
对现任够深情 对前任够狠心的星座 第一名:金牛座
2019-07-08 16:18
滴滴顺风车回归 具体何时能归 消费者:等你回归
2019-04-15 20:39
从“出汗多”看体质?谨记养生方法,值得收藏!-今日头条(www.toutiao.com)
2018-01-11 23:45
备孕 你知道备什么吗?
2018-09-05 09:51
宝宝颅内出血、脑死亡竟是因为掉床 孩子坠床后万不可做错这3件事…
2018-10-16 12:57
日职/令和的怪物石垣岛初上陆 专属商品卖翻天
2020-09-17 12:51:25
新光三越彩虹市集改装结集60家餐厅品牌这5家人气超旺
2018-05-11 12:39
蝉联七年癌症死因第一名!预防大肠癌吃两物:越浓稠越抗癌,日本人爱吃、不想得癌更要吃|每日健康 Health
2019-03-21 21:53
每日排尿1500CC. 与尿路结石说再见
2019-10-25 18:35
原来这个八卦卦序的原理是这样的 其背后隐藏高深的宇宙奥秘
2018-05-10 04:36
只不过用硬币刮“这里”,不到3天!!五脏六腑的毒素竟然全排光了!便秘没了、气色也好了!效果太惊人。。。
2018-01-27 16:45
今日要闻
Dr. Martens联名X-GIRL释出霸气厚底系列!音乐人、潮流人都该来一双
真的来了!GD亲晒PEACEMINUSONE x Nike AF 1,白色“Para-Noise 2.0”超欠买!
adidas推出城市Online Run!王阳明、雷理莎脚踩Supernova、Boston 9限定鞋畅跑信义区
德国鞋履品牌Trippen秋冬新入荷!经典&创新任你选!
阿部千登势再推神作!sacai x Nike Vaporwaffle联名释出,四款新色攻陷你的荷包!
还有机会入手!Off-White x Air Jordan 5“色违”版本联名鞋即将开卖
Joel Embiid首代签名篮球鞋“UA Embiid One”台湾正式发售
Dr. Martens经典再进化!Heritage Distortion系列“双黄线”震撼登陆