全息科普网·科普e站
返回首页

新AlphaGo放弃人类经验后自学成材

时间:2017-10-21 17:30来源:未知 作者:张雪
在围棋比赛上,人工智能程序AlphaGo横扫世界顶尖棋手的事情,早已不是新闻。但人们聊以慰藉的是,AlphaGo是在大量学习了人类棋谱后,才慢慢封神。 这一认知现在也被改写。 10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind...
 
        在围棋比赛上,人工智能程序AlphaGo横扫世界顶尖棋手的事情,早已不是新闻。但人们聊以慰藉的是,AlphaGo是在大量学习了人类棋谱后,才慢慢“封神”。
 
  这一认知现在也被改写。
 
  10月19日凌晨,在国际学术期刊《自然》(Nature)上发表的一篇研究论文中,谷歌下属公司Deepmind报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够迅速自学围棋,并以100:0的战绩击败“前辈”。
 
  世界顶尖棋手的养成,动辄需要数十年的训练、磨砺。但AlphaGo Zero创造了一个纪录:3天。
 
  AlphaGo Lee是AlphaGo Zero的“前辈”。它拥有48个TPU(神经网络训练专用芯片),在参考大量人类棋谱,并自我对弈约3000万盘、训练数月后,2016年3年月,AlphaGo Lee以4:1的击败韩国九段棋手李世石,引发人们关注。
 
  AlphaGo Zero仅拥有4个TPU,零人类经验,其自我训练的时间仅为3天,自我对弈的棋局数量为490万盘。但它以100:0的战绩击败前辈。
 
Deepmind公司详解了AlphaGo Zero的更多不同之处,在识别棋盘盘面时,它直接识别黑白棋子,而非要将图像分类;它仅使用一张人工神经网络,此前的两张被合二为一。
 
  但更大的革新之处在于,AlphaGo Zero采用了新的算法——强化学习算法。在每一次训练后,AlphaGo Zero都能根据训练结果,进一步优化其算法。
 
  上海纽约大学计算机科学教授张峥表示,从算法上来说,AlphaGo Zero比其“前辈”更简洁、漂亮。这一次,AlphaGo Zero摆脱了人为的大数据,在人类给定的一个规则下,自主发现新知识,并且纠正人类的错误知识,而且是以惊人的速度达到这一点。有趣的是,AlphaGo Zero却无法解释(它是如何完成这一切的),只能demo(样本)给人类。
 
  复旦大学计算机科学技术学院教授危辉告诉澎湃新闻,AlphaGo Zero的算法、程序,如同一个黑箱,在一次又一次的自我训练后,有了很多优化。拷贝那一行行代码,就可以“继承”这个被优化过的算法。但算法中的详情,人们并不知晓。
 
  危辉将围棋盘面上各种变化比作宇宙中的星辰,通过人类智力、直觉,人们可能已经触及了其中百万分之一的情形,AlphaGo Zero可能触及了其中其中百万分之五的情形,“比人类多,但肯定没有穷尽。”
 
  张峥表示,AlphaGo Zero等人工智能及地球上的计算能力是否穷尽搜索了围棋盘面的各种可能,他不清楚,但AlphaGo Zero等人工智能一定比人更快,而且有新的发现。换句话说,会产生新的棋谱。
 
  上海交通大学软件学院教授陈海波认为,从理论上说,强化学习的算法本来就可以实现自我训练,AlphaGo Zero提供了一个非常好的范例。人工智能的发展依赖三个要素:算法、平台和数据。像AlphaGo Zero一样,人工智能如果使用合适的算法,并改进算法,降低其对数据与平台计算能力的依赖,有助于其推广和应用。
 
  AlphaGo Zero 以100:0的成绩,战胜AlphaGo Master,其结果十分令人鼓舞,但有误导,且有"造"真的嫌疑。“这让我想起成语‘自相矛盾’。”
 

分享到: 更多

(责任编辑:张雪)

(声明:来源全息网的所有文字、图片和音视频资料,版权均属全息网所有。凡经本网协议授权的媒体、网站,在使用时必须注明“稿件来源:全息网”。本站部分内容来自网络,来源或作者标注难免有疏漏之处,如有异议,请联系本站,本站予以更改或删除。)

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名:密码: 验证码:点击我更换图片
推荐内容

关于我们 | 服务条款 | 广告服务 | 商务洽谈 | 客服中心 | 网站地图 | 客户留言



Copyright 2009-2010 QUANXI Corporation, All Rights Reserved 豫ICP备10004815号