话题AlphaGoZero围棋之 - 地理 - 希腊希腊 - Powered by ZK!NT

我的中心

希腊 » 常识 » 预防 » 话题AlphaGoZero围棋之

返回列表

发新话题

回复该主题

查看: 21\|回复: 0	话题AlphaGoZero围棋之 [复制链接]

发送短消息 UID 222 精华 0 查看公共资料搜索主题搜索帖子 TUhjnbcbe TUhjnbcbe 组别新手上路生日帖子1 积分11 性别注册时间2020-03-27	1^# 字体大小: t T 发表于 2021-08-18 03:51 \|只看楼主新的人工智能诞生了，它便是阿尔法元AlphaGoZero。在对阵曾赢下韩国棋手李世石那版的AlphaGo时，AlphaGoZero取得了比0的压倒性战绩，这真是棋艺高超啊…… 围棋之神真来了文体坛周报记者谢锐比AlphaGo还要厉害得多的人工智能诞生了，它便是阿尔法元AlphaGoZero。在10月19日世界《自然》杂志上线的重磅论文中，详细介绍了谷歌DeepMind团队最新的研究成果。阿尔法元完全从零开始，不需要任何历史棋谱的指引，更不需要参考人类任何的先验知识，完全靠自己强化学习和参悟,棋艺增长远超阿尔法狗，百战百胜，击溃阿法尔狗比0。年3月，第一次“人机大战”，AlphaGo1.0版4比1击败14个世界冠*获得者李世石九段；年底，AlphaGo升级版化身Master在网上对人类高手60连胜，震惊棋界。年5月第二次“人机大战”，AlphaGo2.0版3比0胜柯洁九段，此后宣布不再与人对弈。但阿尔法狗团队并未停止研究，现在研究出来的成果是AlphaGoZero。与阿尔法狗不同，阿尔法元不再学习人类棋谱，而是在掌握基本规则后，通过左右互博，仅仅40天时间，即成为碾压Master的人工智能。美国的两位棋手在《自然》杂志对阿尔法元的棋局做了点评：它的开局和收关与职业棋手的下法并无区别，这说明，人类在围棋上几千年的智慧结晶，看起来并非全错，阿尔法元的中盘看起来则非常诡异，着法比阿尔法狗左右互搏时使出的怪招更加不可思议。按照时越九段的话说就是，来自未来的着法。 AlphaGoZero之所以能当自己的老师，是用了一种叫强化学习的新模式。系统从一个对围棋一无所知的神经网络开始，将该神经网络和一个强力搜索算法结合，自我对弈。在对弈过程中，神经网络不断调整、升级，预测每一步落子和最终的胜利者。升级后的神经网络与搜索网络结合成一个更强的新版本AlphaGoZero，如此往复循环。每过一轮，系统的表现就提高一点点，自我对弈的质量也提高一点点。神经网络越来越准确，AlphaGoZero的版本也越来越强。这种技术比此前所有版本的AlphaGo都更为强大。这是因为，它不再受到人类知识的限制，而能够从婴儿般的白纸状态，直接向世界上最强大的棋手——AlphaGo本身学起。因为这些改进，AlphaGoZero的表现和训练效率都有了很大的提升，仅通过4块TPU和72小时的训练就胜过之前训练用时几个月的原版AlphaGo。自我对弈40天后，ＡlphaGoZero变得更为强大，超过了此前击败当今围棋第一人柯洁的Master亦即AlphaGo2.0版。柯洁发微博：“一个纯净、纯粹自我学习的alphago是最强的……对于Alphago的自我进步来讲，人类太多余了。”AlphaGo通过数百万次自我对弈，从零开始掌握围棋，在短短几天内积累人类几千年才有的知识。AlphaGoZero也发现了新的知识，发展出打破常规的策略和新招，与它在对战李世石和柯洁时创造的那些交相辉映，却又更胜一筹。不过，这些创造性的时刻给了我们信心：人工智能会成为人类智慧的增强器，帮助我们人类解决人类正在面临的一些严峻挑战。尽管才刚刚发展起来，但是AlphaGoZero已经走出了通向上述目标的关键一步。如果类似的技术可以应用在其他结构性问题，比如蛋白质折叠、减少能耗和寻找新材料上，就能创造出有益于社会的突破。比阿尔法狗（AlphaGo）更为强大和进步更快的阿尔法元（AlphaGoZero）诞生后，围棋界再次被震撼，古力九段发微博：“20年不抵3天啊！我们的伤感，人类的进步！” 阿尔法元通过自学成为围棋第一高手，其下法固然颠覆了人类棋谱、棋路，但人类还是能看懂，而且其有套路可循。其执黑第一手还是星位，然后直接点对方星位角的三、三，这也是目前棋手们几乎公认的下法。比起当初Master在布局一些诸如四路肩冲、六路跳起的惊世骇俗下法，如今阿尔法元在技术上给人类造成的冲击还不如Master，但其40天时间里从一张白纸到碾压Master的高手，这样的成长速度才令人类震惊不已。李喆六段发微博：“完全抛开人类围棋知识，去年论文里提到的许多特征和rollout全部去掉，两个神经网络合为一个，只给定棋盘、棋子和规则。从乱下开始，1天达到V18（超越人类棋手水平），21天达到Master，40天碾压Master。年起，在某些领域，AI不再需要人类知识。” 紧跟这条微博之后，李喆又发了条有关阿尔法元的微博：“作为人类棋手，不必悲伤。几千年前人类规定的座子就在星位，而AlphaGoZero仍然起手占角星位，其绝大多数下法都能被人理解，人类累积而成的围棋认识与完全自学习的Zero达成奇妙共识。在强大的算法面前，道理展现了自身的限度和能力。” 阿尔法元从零起步学习围棋，完全脱离人类既有围棋理论和知识的局限，通过强大的自我学习功能达到第一高手水准，但它的一些布局思路与人类几千年来的智慧成果殊途同归，这也证明人类围棋理论的科学性、合理性，并不完全是“糟粕”。现在问题来了，AlphaGoZero诞生后，职业棋手以及围棋培训的路是不是已走到尽头？人工智能专家、美国北卡罗莱纳大学夏洛特分校教授洪韬认为没必要这么悲观，“上世纪八九十年代，人工神经网络的研究迎来了一场大火，学术圈发了成千上万篇关于神经网络的论文，从设计到训练到优化再到各行各业的应用，最后不了了之。” 美国密歇根大学人工智能实验室主任SatinderSingh也表达了类似观点：这并非任何结束的开始，人工智能和人甚至动物相比，所知所能依然极端有限。其实，阿尔法狗也好，阿尔法元也罢，哪怕它们的着法接近围棋之神，但它们终究没有感情、没有个性，不会弈出“宇宙流”这样充满魅力个性的棋来。他们的确精确，但不见个性、不见失误，因而激不起人类的喜乐哀愁，少了无数乐趣。 Alpha是希腊字母表中的第一个字母α，表示“第一个，最初，开端”，而Go则是源于日语中围棋的发音，罗马注音为“go”，和英语“go”的读音略有差异。虽然围棋起源于中国，但是日本对它的推广有极大贡献，所以国际围棋的术语多来自日语。在一个完全可以不走寻常路的年代，只走寻常路的翻译常常会让人感到别扭。又到了各位脑洞大开的时刻：某位网友说，应该叫“阿尔法狗”。对桌同事说，应该叫“阿尔法我去”。隔壁老王说，应该叫“阿尔法我们走”。某位不知名人士透露，应该叫“阿尔法走你”。当然还有人，也就是小编觉得“阿尔法围棋”这个译法，的确似乎应该还是更符合规矩一点。实习编辑小赞 ----------推广---------- 《-18赛季欧战指南》（已售罄）和《欧战宝典》（精装收藏版，定价69元）已在9月中旬全国上市；点击图片，即刻登陆体坛周报京东店进行预定！预览时标签不可点收录于话题#个上一篇下一篇
	分享转发

	TOP

上一主题| 下一主题

发新话题

回复该主题