2017年1月23日月曜日

谷歌、微软、OpenAI等巨头的机器学习开源项目

  在人工智能行2015-2016 了一个不同常的趋势重量机器学习项纷纷走向开源,与全世界的开者共享。加入开源大潮的,不有学界生,更有国内外的互网巨头们:国内百度腾讯,国外的有谷歌IBMFacebookOpenAI 等等。本文总结了国外各家互网巨的七大开源机器学习项

  GoogleTensorFlow

  TensorFlow 布于 2015 11 月,是谷歌基于 DistBelief 的第二代机器学。它是一个能理多种言理解和知任的开源。它最初由谷歌大(Google Brain)的研究人出来,用于机器学和深度神方面的研究。但它的通用性使其也可广泛用于其他域。在谷歌,TensorFlow 已用来支持 Gmail、谷歌相册、识别、搜索等旗下多款商用。多开者把它看作是 Theano 的替代品:两者都采用了( computational graph)

  在, TensorFlow 布已超一周年,它已成 GitHub 上最受迎的机器学开源目。并且,谷歌已它加入了官方 Windows 支持。

  点:

  谷歌表示,TensorFlow 点在于:通用,灵活,可移,容易上手并且完全开源。于部分任,它的运行速度能达到上代 DistBelief 的两倍。

  TensorFlow 仅仅是深度学工具,它支持化学以及其他算法。

  它既可用来做研究,又适用于品开

  但 TensorFlow 最大的点,应该是用的人多――它是 AI 者社区参与度和普及程度最高的开源目之一。Cambrio CEO Daniel Kuster 表示:"写出能机器编译行的代,但同行接受就十分不容易了。越多人用,越多的人分担(难题)"

  缺点:

  源分配机制使系更复使用精确控 GPU 点的使用情况,TensorFlow 牲了简洁。另外,启动时它会试图占用全部的可用存。

  价:

  微机器学研究彭河森表示, TensorFlow 是非常秀的跨界平台:它吸取了已有平台的长处,既能触碰底数据,又具有成的神,可以非常快速的实现建模。

  GoogleDeepMind Lab

  家精通 AI 训练的公司,以在棋上五局四胜击败李世石的 ALphaGo 名于世。 2016 年的 AI 里程碑事件。被谷歌收后,更使后者的江湖地位得到巩固。

  本月初,DeepMind 宣布把 AI 训练平台 Labyrinth 开源,并改名 DeepMind Lab

  没就是之前的那个"":它是针对基于代理的 AI 研究而开 3D 训练平台。DeepMind 表示,它代理提供了一系列具挑的三探索和解该项目旨在 AI 研究、尤其是深度化学提供试验田。

  所有景使用科幻剧风行渲染。它采用了第一人称察方式:通代理的角。代理的躯体是一个漂浮的球,通背后的推器前""中,代理可以在 3D 中移转动""察周围环境。

  DeepMind Lab 具有高度可定制、可展性。新的等可以通过现成的编辑工具制作。另外,DeepMind Lab 包括了纲领性等级创建的交互界面。不同等可以从多方面来定制:游戏逻辑落物品、旁、等重启,励机制,游内信息等等。

  DeepMind 始人 Shane Legg 表示,DeepMind Lab 比其他的 AI 训练环境要出色,因其游戏环境非常复。此前,通改良传统深度增方法,Deepmind 使代理以高于 A3C(DeepMind 另一个役代理) 十倍的速度学,并平均在每个迷宫层达到人类专家水平的 87%

  DeepMind Lab 的源代公布于 GitHub,它目前需要依于外部。由于时间尚短,开者社区 DeepMind Lab 的反很少。

  关于 DeepMind Lab 详细信息, OpenAI 之后,DeepMind 开源深度学习训练平台 DeepMind Lab DeepMind 黑科技!传统强化学方法,代理学速度提高十倍(视频)

  OpenAIUniverse

  本月,正是斯克投的初公司一周生日。在月初的 NIPS 大会上,它宣布旗下 AI 训练平台 "Universe"(宇宙)开源。是一个与 DeepMind Lab 十分似的平台,两者宣布开源的时间点也十分接近,了公众两者间竞争关系的猜想。

  与 DeepMind Lab 相似,Universe 的目也是们训练测试 AI 代理提供平台。但于它的不同点,官方出了解

  Universe 是一个在全世界的游、网和其他用中,估、训练智能代理的件平台。

  代理使用了和人地感官入和控制方式:看到的是像素,控制的是鼠标键盘使得任何需要电脑来完成的任都可以训练 AI 去做,并且与人玩家量。

  十分有野心。于第一点,OpenAI 出了一步明:Universe 包含上千种不同训练环境,包括 Flash ,网,蛇大作和侠盗猎车5 这样的游。开发团队在博客中"的目是开出一个 AI 代理,能灵活地把它去的经验应用于 Universe 景中,来迅速掌握陌生、困境。会是走向通用智能的关一步。"

  OpenAI 认为深度学统过专业化:"AlphaGo 能在棋上你,但是你无法教会它其他棋牌游,然后它跟你玩。"于是,Universe 使得 AI 够处理多种型的任展出"关于世界的知和解决问题战术,并能有效用于新任"

  OpenAI 拿到 EA,微工作室,Valve 和其他公司的可,以使用3世界 (Rimworld) 等游OpenAI 系其他公司、开者和用找更多游可,用不同 Universe 务训练代理,并把新游整合入系

  雷网此前 OpenAI Universe 做了深度道,参考 OpenAI"宇宙"平台,用1000+训练环AI"人智力",与终结抗,钢铁斯克10亿美金打造的Open AI究竟是什么?以及强强联合,微 OpenAI 合力布局人工智能。

  什么 OpenAI DeepMind 会一前一后选择开源,外媒 Engadget 认为,目前 AI 经发展到新――需要更多的学数据,所以通常情况下""的科技公司会选择对外合作。当然,2015-2016 波开源大潮中,AI 各成展示出的与公众分享研究成果的精神,也得肯定。

  FacebookFastText

  与上面两者不同,今年八月 Facebook 推出的 FastText 是一个文本分析工具,旨在"文本表示和分"建可展的解方案专为超大数据的文本理而设计,而该领域的另一个主要解决方案――深度神理海量数据容易出现许问题Facebook AI 研究部 "FAIR" 指出,深度神通常训练测试起来速度很慢。

  FastText 在几秒、或是几分之内完成大型数据训练。而基于深度学的方法可能会花几小甚至几天。 FastText 垃圾过滤器等重要用,但是,在将来它可能 Siri Google Now 这样 AI 提供帮助,使它更快地理自然言。

  Facebook 宣称,这项新技"于超 10 亿词汇训练不超十分",而只需要"普通"的多核 CPU。另外,它能在五分 30 万个目下的 50 万个句子行分

  参考 比深度学快几个数量Facebook最新开源工具――fastText

  MicrosoftCNTK

  CNTK 的全称是 Computational Network Toolkit,意"算网工具箱",它是一个把分布式深度学习应用于他各自目的工具。微在今年一月将它布,在十月份又行了重大升,使其有更快的速度和更好的展性。

  表示,CNTK 是一个"一的深度学工具箱,它把神描述有向图进行的(directed graph)一系列算步"于部分内人士,它是其他深度学框架、和工具箱(例如TensorFlow, Theano Torch)的替代物。但其CNTK 最开始的用途是识别在它已成通用的、独立于平台的深度学,但相比通用深度学社区,它在识别社区的知名度更高。

  CNTK 支持常用深度神架构的构性行,比如卷 (CNNs),循 (RNNs )短期记忆 (LSTMs)。因此,它用了随机梯度下降 (SGD) 、反向(SGD)和自区分(auto differentiation)CNTK 的一大点是:它支持多个设备以及多个 GPU 算。相比之下, TensorFlow 最近才开始加入横跨不同设备的运算支持。

  在内部测试中微首席音科学家黄学表示,在开们为语音、识别务创建深度学模型方面, CNTK 明比其他四种主流工具箱都要快。

  "与任何已知的方法相比,CNTK 以置信得快。"

  CNTKTheanoTensorFlowTorch 7Caffe GPU 运算速度比。竖轴/每秒,色柱代表 GPU,橙柱代表一四个 GPU绿柱代表两四个 GPU测试时,其他工具箱尚不支持多设备Theano 不支持多 GPU

  以下是微官方宣 CNTK 的三大点:

  速度和展性

  CNTK 训练估深度学算法比其他工具箱都要快,在一系列情况下的可展性都非常好――不管是一个 CPU、多个 GPU是多个算机,与此同保持效率。

  商用级别

  CNTK 的复算法使它能在海量数据定运行Skype、微小冰、必搜索、Xbox 顶级的数据科学家已在使用 CNTK 来开商用 AI

  兼容性

  CNTK 提供了最有表达力、最容易使用的架构。它允你使用所有内置训练算法,或者使用你自己的。

  关于 CNTK 的技术细节参考雷网此前的深度分析:微软为什么要用英达的GPU来支持CNTK | GTC China 2016

  AmazonMXNet

  MXNet 生于学界,并不是亚马逊的开源平台,但已成它的御用系

  它是一个多言的机器学习资,旨在降低开机器学算法的门槛,尤其是于深度神言。它支持卷(CNN)以及 LSTMs( long short-term memory networks)。它通把符号式(symbolic programming)和命令式(imperative programming)合起来,以最大化效率和生力。它的核心是一个 dependency scheduler,能同时进行符号式和命令式任之上的图优(graph optimization layer)使得符号式程序行快速、高效。MXNet 具有便和可移的特点,在设计之初就考 GPU 、多个算机以及不同算平台的支持。从移动设备到分布式 GPU 集群,都可用于 MXNet

  国内的森互和地平台机器人是 MXNet 的使用者之一。但真正使它声名大噪的,是 11 亚马逊宣布把 MXNet 官方深度学平台,用于亚马逊网路服 AWS,并将在未来成 MXNet 的主要献者。亚马逊表示,选择 MXNet 有以下三点原因:

  展到多 GPU 的潜力。使得亚马逊能充分利用算性能。

  开速度和可程性。亚马逊希望选择一个开者能快速上手的平台。

  移能力。限制在大运行的机器学习应用,价有限。亚马逊希望能在多种设备运行机器学工具。

  MXNet 始者之一的解浚源表示:"MXNet的速度,省内存,接口灵活性,和分布式效率都是可圈可点。"

  更多请见 告:MXNet火了,AI如何选择深度学开源框架丨硬公开,以及 如何 MXNet 亚马逊AWS 选为官方深度学平台。

  IBMSystemML

  SystemML 始于 2010 年,它的技来自于 IBM Watson 程,最初是 IBM BigInsights 数据分析平台而开2015 年,IBM 把它捐赠给 Apache Spark 开源社区,从此 SystemML 又被称 Apache SystemML。它与 Apache 的另一个"Spark" 有着高度的整合。

  SystemML 使大数据的机器学提供了一个理想的境。它可运行于 Apache Spark 之上,自动给一行行的数据(scale data),来决定你的代是否运行在驱动或是 Apache Spark 集群之上。

  SystemML 是一个机器学算法的解器,帮助开建用于不同工业领预测分析的机器学模型。开源版本的 SystemML,即 Apache SystemML,旨在帮助数据科学家把算法化到生产环境,而不需要重新写底。因次,IBM 号称能把数据分析从电脑扩展到大数据中心。

  IBM Analytics 副主席 Rob Thomas 表示:"使专业领域或专门的机器学可能,来一系列的帮助,从底到定制用。"

  它有两个点:

  表达定制逻辑分析有完全的灵活性。

  数据独立于入格式和物理数据表达

 

0 件のコメント:

コメントを投稿