2016年3月28日,云创大数据宣布正式成立深度学习组。自此之后,云创大数据将应用趋于成熟的云计算技术优势,依托大数据的数据管理平台,为全新的深度学习版图提供强有力的支撑。这既是云创大数据继2016年1月4日启动平台部以后的又一重大举措,也是其顺应深度学习大潮的好选择。
早在2011年,Google X从YouTube视频中抽取了1000万张静态图片,把它“喂”给“谷歌大脑”,目标是从中寻找重复出现的图案。3天后,谷歌大脑在没有人类帮助的情况下,从这些图片中发现了“猫”,实现了在互联网中“自学成才”。
2012年,微软公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅,而其支撑的关键技术也是深度神经网络(DNN),或者深度学习(DL)。
2016年,机器人AlphaGo在距离击败欧洲围棋冠军樊辉不到半年的时间,又以4:1的比分战胜了九段棋手李世石,以强悍的深度学习再一次刷新了人类对人工智能程序的认识与理解。
上图为计算机眼中的国际象棋落子思路,而下图为计算机眼中的围棋落子思路
因此,深度学习俨然成为了机器学习研究的新领域,而其动机在于建立、模拟人脑进行分析学习的神经网络。这些用多层神经元构成的电脑神经网络像人类大脑一样,可以收集信息,从而模仿人脑的机制来解释数据,例如图像,声音和文本等,并基于收集到这些信息做出相应行为,以达到机器学习的功能。
深度学习广为人知的便是视觉功能,如果说相机能够记录这个世界,那么深度学习却可以看懂这个世界。有了深度学习,我们可以很方便地刷脸付款,百度识图可以准确识别照片中的物体类别,并对照片进行自动归类或搜索,有了深度学习,机器可以检测一定空间内所有人员、车辆的行踪,并对可疑和危险事件及时报警。云创大数据深度学习组的成立,正是适应时代大潮的必然选择。
深度学习的基础——海量的数据资源
“深度学习需要大数据的助力,就像火箭有了燃料。”潘争博士曾介绍,深度学习技术建立在大量实例基础上,就像小孩收集现实世界的信息一样,而且“喂”的数据越多,它就越聪明,并且不会“消化不良”。因为大数据的不可或缺,所以目前深度学习做得好的基本是拥有大量数据的IT巨头,如谷歌、微软、百度等。
对此,云创大数据具有得天独厚的大数据平台优势。其中,智能硬件大数据免费托管平台——万物云(http://www.wanwuyun.com/)基于数据立方云计算大数据库,承载物联网与智能硬件数据,支撑数亿个手机的实时信令流在线处理,可提供实时、可靠、安全、免费的一站式数据托管服务。
其次,环境云(http://www.envicloud.cn/)作为环境大数据免费开放平台,通过大规模布设各种传感器,实时感知环境,以API共享与环境有关的多元化数据(包括水体环境、大气环境、污染物排放、地质灾害、气象灾害、城市位置查询、城市编码查询等),同时支持多种应用,可提供海量的环境数据。
深度学习的支撑——强悍的计算能力
如前所述,深度学习通过算法快速识别各种数据类型,同时提升分析能力。在这个过程中,神经网络的参数非常多,对于数据存储和处理的需求不可谓不庞大。对此,云创大数据诸多解决方案可提供好的设备和开发环境,并配备了详细的指导书籍和实验设计,依托其cStor云存储、cProc云处理优势,云创大数据将提供强大的计算能力,为深度学习提供数据分析支撑。
广泛应用的云创大数据产品
此外,云创大数据作为江苏省信息产业企业联合研发创新中心与南京市工程技术研究中心,与多家专业机构合作建设了联合实验室,可满足大数据和深度学习的实验需求,而云创大数据旗下的中国云计算(www.chinacloud.cn)、中国大数据(www.thebigdata.cn)、中国机器人(http://www.ro-bot.cn/)等在搜索引擎关键词中排名靠前的网站,可为深度学习的深化与拓展方面提供多元化的资源。
深度学习的保障——优秀导师和专业团队
在导师方面,清华大学博士、中国信息学会大数据分会副会长刘鹏教授将作为深度学习小组的牵头人,将带领整个团队在机器学习、计算机视觉、语义理解检索等领域展开纵深研究。刘鹏教授先后主持完成了科研项目18项,发表论文80余篇,曾率队夺得2002 PennySort国际计算机排序比赛冠军,并出版了包括深入剖析云计算技术的教材——《云计算》、《实战Hadoop》等12本专业书籍,而其涵盖大数据、机器学习、人工智能等内容的系列教材也即将问世。
此外,对于深度学习目前应用广的视觉功能,云创大数据自成立之初就成立了强大的cVideo云视频团队,并在早前已实现视频整合、转码处理和智能识别等功能,可满足不同终端的访问需求以及实现车流统计等交通数据的提取,实现了与南京青奥专网、交管局、交通局、公安局、城市高点监控、道路图像监控“320”工程等现有视频监控平台的对接,在智慧南京、智慧宜昌等多个项目得到了广泛应用。
在此基础上,cVideo云视频团队还创造了“视频DNA”检索技术。“视频DNA”通过对人的走路姿态进行建模,充分利用人走路所形成的三维空间特征,加上时间特征,提取出实现连续走路姿态的一个DNA样本,从而在大量样本的集合库中进行与特定人物DNA的比对,实现实时、快速、有效地视频DNA检索。目前这一技术已经成功用于案件侦破。