许多人认为,经过多年的积累,人工智能技术在前夕的爆炸式增长——也许他们的判断没错,但随着信息技术领域的从业者,同事和我更关心,为什么突然从“地狱”人工智能在“法庭”,成为万众瞩目的焦点吗?在人工智能可以指定谁?

想象以下场景—

人工智能助理成为了一些基本服务,如数字支付,地图。

它跨平台。电脑和手机,或智能电器和无人驾驶车辆,它是隐藏在幕后,随时准备应对主人的“电话”。

它跨应用程序。用户是否拍照,玩游戏,或者去国外旅行的的语言,开始一个新的健身训练,正伴随着它。

这是整个场景,感觉声音。就是说,听和写,也就是说,它将大大增强宿主的能力,帮助人类更好地应对工作和生活中的挑战。

人工智能技术:爆炸倒计时吗?

尽管人工智能的行业不是一个产品可以达到这个水平——既能对接企业产品数据库,并基于用户数据的长期积累,达到一定程度的理解宿主客观条件,但是我们有类似的目标越来越近了。

预计在几年内,通过嵌入在各种硬件、软件和服务,人工智能可以收集更多的实时生成的用户数据,类似于体重、体脂、体温、心率、血氧饱和度和其他生理指标的健康和健身,他们的数据,例如体育等长度的指数,和用户的饮食禁忌,消费习惯、品牌偏好,如外部数据,加上时刻更新信息实时企业的商品和服务,可以为用户提供最亲密,最符合需要的生活技巧和消费的建议。当然,所有用户数据加密存储在云中,就不会有泄漏问题。

许多人认为,经过多年的积累,人工智能技术在前夕的爆炸式增长——也许他们的判断没错,但随着信息技术领域的从业者,同事和我更关心,为什么突然从“地狱”人工智能在“法庭”,成为万众瞩目的焦点吗?在人工智能可以指定谁?

这三个力量

尽管人们很久以前就开始想象能力独立思考和行动的机器,和60年前(达特茅斯会议)建立了“人工智能(人工智能)”的概念,但经历了几十年的探索,沮丧,复苏,直到最近,近年来,学术界、工业似乎看到黎明将人工智能的愿景变成现实。

深度学习算法,高质量的大数据和高性能计算资源,这是人工智能技术的研究和发展加速了三个力量,推动人工智能从实验室到人们工作和生活,同时也促进相关技术孵化和裂变出越来越多的应用。

首先,深入学习算法相结合的推理算法和机器学习算法。典型的深度学习模型通常需要建立深层次的神经网络,通过加强模型的复杂性提高机器学习能力,和模型的复杂性,需要增加宽度(即。隐藏的神经元的数目)和深度的增加(即。隐层的数量)。

接下来,研究人员还必须不断提高数据的大小和质量,增强机器的学习效果。在过去的几个月里AlphaGo的声誉作为一个例子,16000倍的去计划人类六到九大师游戏分析数据上涨3000万点,和数据用于训练“政策网络”(政策网络)。

第三,高性能计算资源是必不可少的。值得信赖的评级方法(值得评级)是由匈牙利路径德埃罗博士美国物理学家亚珥拔(值得)创建一个类级别的球员得分方法调用。值得信赖的评级,AlphaGo不同的硬件配置,在异步模式下运行(Asyncdivonous)和分布(分布式)当相应的分数,如图1所示:

图1:AlphaGo值得评级,报价从谷歌深

显然,分销模式下,从1202年的176 CPU、GPU – 1920的280 CPU、GPU,计算性能的线性增长只有28分分数增长,这表明一个线性增长,计算资源的分数是不可能相同的线性增长。未来越多,每一点成绩的发展都需要大量的计算资源的支持。

从长远来看,我不认为人类棋手与机器重量占上风,无论多少空间和棋类游戏的规则很复杂,机器,只要证明算法是有效的,所以,在一个日益增长的大量数据资源、计算资源的与时俱进的祝福下的优势相对于人类只会变得越来越大。

大数据:比大

一个有趣的问题是,人工神经网络和深度学习理论和实践尝试有几十年的历史,但直到今天,为什么的深度研究没有揭示出非凡的力量?

联合服务协会(历史)数据科学部长罗伯特·威尔伯恩(罗伯特·Welborn)认为2015年是一个机器学习的商业化发展迅速。存储市场大范围的价格和存储设备制造成本降低起飞是机器学习领域的关键。

但是当大数据和云满足深度研究,计算机科学家渴望几十年的技术终于不再是不存在的。深度学习的潜在技术是完全释放,弈棋好项目的胜利,我们是完成图像识别领域的一个突破,语音识别等是一件很自然的事情。

大数据是多少?根据IDC的数据,2014年发布的一份报告,仅在2013年,人类一代,复制,和消费的数据量4.4 ZB,即44亿TB -可以看到,这些数据需要多少硬盘打扮,到2020年,这一数字将达到40 ZB,年增长率为40%。

显然,云计算、移动互联网和社交网络是螺旋桨的三大数据。一组数字对比知道:

1997年,整个中国电影的消费大约是1.2亿年,当时的人口是12.36亿。在每一卷胶卷可以24-36图片,总共约40亿照片,中国消费者每年大约每1卷胶卷,3拍照。

一天2015年,小米手机用户只有1亿册的新照片,和微信用户上传新照片,每天超过10亿册,小米手机用户每一个半月,每四天,超过1997个新微信的照片,所有的中国照片。

相比之下显示,在过去的20年中,个人计算设备产生的数据量显著增加。为了处理这些数据,需要强大的云存储和计算平台。处理小米手机每日新照片,例如,1亿张照片云相册缩略图过程需要2400核,2.6 GHz CPU和200 TB的存储空间。

和电话这种设备支持一些很酷的看起来很聪明的特性,如人脸检测,根据特征脸识别和分类目录,等等,没有一流的云平台的背后,是不可思议的。

小米手机相册加入一些为用户很方便和人性化的功能,如:

用户可以找到每一脸的照片和看到年龄标签。

点击“面子”列,所有包含字符的照片被归类为“名字”系列。

选择一个图片,图片的应用程序也可以签在每一个人的名字……

”的功能受到面临失明和健忘症的朋友很有用,但也让手机看起来很“聪明”。但事实上,相关操作过程不是在手机硬件平台,但是在一个遥远的“小米云相册”——至于小米云相册,支持金山云组。

深度学习:让机器比一个人好

因为在几何激增的数据量,从事研究工作,如机器学习神经网络,科学家们曾经认为培训不可能完成的任务,今天可以相对容易完成。

我自己之前做的研究背景,专业方向的视频和图像内容分析和检索,计算机视觉和信息系统。在人脸识别上,早在20年前,我和我的团队已经收到专利——还记得1996年,我开始研究我在惠普实验室的硅谷,1997年申请专利,2000年批准(如图2,图3),这是一个分布式架构,数据从客户端生成,传输到后端系统,经过一系列的处理,那么结果推到前端。事实上,现在学术界和产业界的人脸识别,云-端图像处理研究与20年前相比,原则上是相似的,只有在数据资源和算法大大改善。

图2

图3

在过去的20年,原则上变化不大的前提下,应用程序开发进展非常缓慢,原因是后面对图像数据库的大小,或计算本身,只能使用“贫瘠”来描述。

为什么研究人脸图像数据库是不足以支持任何形式的技术突破?数字证明了这一点:1990年前后,ORL数据库和耶鲁大学实验室和B E AR面对图书馆面对样品数量不到130人,首选识别率在95%到99%,直到2007年,LFW(标记为脸在野外)的脸在图书馆,5749年只有5749颗恒星。

在一些IT领导企业大规模数据资产加入人脸识别研究阵营后,这种情况明显改善。在2014年,Facebook DeepFace脸库包含4030个样本的4400万张照片,算法通过多达1.2亿网络,8楼培训系统支持的参数。和谷歌FaceNet数据库规模更大,800万个样本的能力从2亿年的字符图像,和22深度网络和1.4亿参数算法系统。同样的国内公司,公司已建立你的角色多达7000万个样本(每个1身份证照片,1图片)的图像库,拥有超过30层深度网络,20英伟达M40 GPU训练6天,取得了相当不错的成果。

许多大规模的数据是大数据?当更多的数据可以完全覆盖几乎整个样本空间,从而减少依赖理论和模型,数据是足够大的。问题,如预测扔硬币样本空间为{ 0,1 },1000个样本甚至大数据,就足以让更高程度的信心的预测。机器翻译,图像识别,这个话题而言,在样本空间的顺序是太多——在去年年底第六ImageNet图像识别,微软团队打败谷歌图像识别系统设计,如英特尔、高通强劲对手,使许多名字。据我所知,微软已经训练图像识别系统是使用152网络层的深度。这表明研究:我们如何能促进传统方法是一个小的数据量+复杂的模型,在一定阶段,很难提升系统性能,与大数据、行业使用大量数据+简单的模型可以获得更好的结果比传统方法;接下来,当大量的数据和复杂的模型,结合培训应该能够创建最好的结果。

从上面的案例也可以看出,算法和系统领域的学术水平与行业差距较大,学术水平的理解应用程序性能的行业也存在较大的差距,一直在人脸识别领域,这个行业的应用任务有两种模式:1:1也面临选择两块识别、1:N选择面临着更多的认可。在不同的测试条件下,企业要做的:1:1的任务,性能达到误报率超过一百万分之一;处理1:N,N =成绩表现意识到必须查询条件,首选的约90%。是因为这个行业的参与,两年前,机器识别人脸有超人的能力。类似的电视剧“嫌疑犯跟踪”人脸识别在现场随时将成为现实。

在实际应用中,主流推进技术,行业效率远远高于在学术界,不难理解,不仅因为前现金充裕,而且,更重要的是,该行业在结婚储备,使用用户数据与学术界相比具有明显的优势,和巨大的,像Facebook,Google可以使用无限的云计算资源加速开发过程。

云将越来越重要

我的前同事,图灵奖获得者,数据库大师吉姆·格雷在他的杰作“第四范式:数据密集型科学发现”范式的科学发展有着非常深刻的总结:一千年前,科学是基于一个简单的实际经验来描述这一现象。数百年来,科学家们一直试图建立分支学科和理论,建立和使用模型来概括。近几十年来,新分支计算的计算来模拟复杂的现象。现在是依靠大型数据探索这种现象。

收集从云计算资源,创新和大数据应用程序的算法创造了无限的可能性,在过去的五年中,我们见证了云计算是如何促进消费产品和创新领域的企业产品,目睹了云计算是如何毫无根据的怀疑从一个过度投机,逐渐成长为一个基础平台的概念,整个IT行业和各行各业的见证了云计算技术的支持下(基于“增大化现实”技术,如人工智能、虚拟现实等)和应用爆炸模型(如游戏、O2O、广播、等等)。

整个中国的IT产业在未来十年增长最快的,很可能是云计算公司。回顾过去,快速增长的新力量巨大的美国公司只有一个,就是集中在AWS云计算(如图4所示),其轨迹几乎是从事ToC Facebook重叠。此外,更快的发展,更高,而美国市场成熟云计算在中国市场仍在增加等级类型的演变垂直飙升节点(如图5)。

图4。

图5

总而言之,算法,数据,计算资源,使科幻小说成真,人工智能可以分配。人工智能的三大力量,在不久的将来将成为行业领域的有远见的企业标准。根据一项调查,到目前为止,超过60%的IT公司,业务和专业服务公司的48%,47%的金融服务公司,制造公司的38%,29%的零售和物流运输公司使用云平台和建立大数据的决策。大数据不再仅仅是一个机会,它成为必要的竞争企业的未来。在人工智能在干预后,可以进一步减少人工分析的数据,判断,如干扰,使企业以更低的成本实现更快和更准确的决策。

我们确信,人工智能已经成为一个主流信息技术产业和传统产业的转型升级和改变的关键。、大数据、计算资源和算法不仅构成了人工智能的稳固的支点,也将成为现实我们构建之路的新“智能”的能源。

作者:金山词霸云组博士和集团首席执行长hong-jiang张



相关文章