在不具备人类知识的前提下掌握围棋
资料介绍:
在不具备人类知识的前提下掌握围棋(中文14800字,英文PDF)
摘要
人工智能的一个长期目标是建立在具有挑战性的领域中学习、从tabula rasa开始和获得超人能力的算法。最近,AlphaGo成为第一个在围棋比赛中击败世界冠军的程序。AlphaGo中的搜索树评估位置并使用深度神经网络选择移动步。这些神经网络是通过从人类专家动作中进行监督学习和从自我演练中强化学习来训练的。在这里,我们提出了一种完全基于强化学习的算法,它不需要人的数据、指导或者超出游戏规则领域的知识。AlphaGo成为自己的老师:神经网络被训练来预测AlphaGo自己的移动选择,以及AlphaGo游戏的胜者。该神经网络提高了树搜索的优势,在下一次迭代中提高了移动选择的质量并加强了自我训练的能力。从tabula rasa开始,我们的新程序AlphaGo实现了超人的表现,以100比0战胜了先前打败了冠军的AlphaGo的版本。
[资料来源:http://doc163.com]
[资料来源:http://www.doc163.com]