海安幼儿园白丝彭一杰课题组建议一种顾问大界限决策问题的高效蒙特卡洛树节点采纳战略

栏目分类

热点资讯

米菲兔足交

你的位置：色狼窝影院 > 米菲兔足交 > 海安幼儿园白丝彭一杰课题组建议一种顾问大界限决策问题的高效蒙特卡洛树节点采纳战略

发布日期：2024-08-29 00:59 点击次数：233

海安幼儿园白丝彭一杰课题组建议一种顾问大界限决策问题的高效蒙特卡洛树节点采纳战略

近期海安幼儿园白丝，北京大学光华顾问学院顾问科学与信息系统系副素质、东说念主工智能臆测院多智能体与社会智能中心实檀越任彭一杰课题组以“An Efficient Node Selection Policy for Monte Carlo Tree Search with Neural Networks”为题的著述被运筹与顾问科学领域高水平期刊Informs Journal of Computing收受。

连年来，耀眼化运营顾问、制造业及机器东说念主法例等领域正濒临着日益增加的大界限决策挑战。这些挑战的中枢在于如安在广泛的动作空间中精准地识别出最优行为有经营，这关于多半传统的基于章程的搜索神色而言，其计较复杂度频频极高。蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS），算作一种交融了蒙特卡洛仿果然飞快性与树搜索精准性的高效算法，好像有用处理复杂且大界限决策的问题，并在自动驾驶、计较机游戏及组合优化问题等多个领域展现出了其独有的上风与后劲。东说念主工智能领域AlphaGo的见效引颈了一种新趋势，即在MCTS中融入价值网罗和战略网罗，以进一步擢升算法的性能。

图片 1.png

图1. 蒙特卡洛树搜索

MCTS实质上是一个黑箱系统仿真优化问题。在经典的MCTS中，节点采纳战略采选置信上界树（Upper Confidence Bounds applied to Trees，UCT）算法，该战略好像有用均衡节点采纳中的探索与斥地。辩论词，用于推导UCT算法的多臂老虎机问题与MCTS问题的框架存在各别，且该算法未能充分哄骗仿真抽样经由中取得的信息。本臆测将蒙特卡洛树搜索中的节点采纳问题建模为多阶段的排序与采纳（Ranking and Selection海安幼儿园白丝，R&S）问题，该框架与蒙特卡洛树搜索问题愈加契合。本臆测将用于求解排序与采纳问题的渐近最优仿真资源分拨战略膨胀为一种用于树搜索的节点采纳战略。该战略通过均衡行为值与方差，好像高效地分拨有限的仿真资源，以最大化正确采纳最优行为的概率。进一步地，本臆测将价值神经网罗与战略神经网罗融入所建议的节点采纳战略中，隔离为算法提供了先验信息与最优行为识别信息，从而进一步擢升战略的发扬。

图片 2.png

图2. 在井字棋下的践诺终结

图片 3.png

图3. 在五子棋下的践诺终结

图片 4.png

草榴论坛

图4. 在强化学习倒立摆环境中的践诺终结

本文将所建议的算法应用于井字棋和五子棋计较机游戏中。数值终结标明，在不连络任何神经网罗信息的情况下，与经典的UCT战略比较，该算法好像显赫擢升正确识别最优行为的概率；在连络神经网罗信息后，该算法在游戏对弈中比AlphaGo Zero中使用的UCT战略具有更高的奏凯率。此外，在OpenAI倒立摆环境测试中，该算法比较于MuZero中使用的UCT战略，在有计划的迭代次数下好像取得更高的游戏得分。进一步地，本文通过数值测试隔离考据了价值网罗与战略网罗在擢升算法发扬方面的后果。这项臆测揭示了将动态仿真资源分拨战略膨胀为MCTS中节点采纳战略的后劲，应用这种新的蒙特卡洛树搜索神色来顾问大界限决策问题值得进一步潜入臆测。

好意思国佐治亚理工大学工业与系统工程系博士臆测生刘啸天为论文第一作家，彭一杰为论文通信作家。论文贯串者还包括北京大学光华顾问学院助理臆测员张公伯、博士臆测生周睿涵。

该臆测得到国度当然科学基金了得后生科学基金、原创探索项主义资助海安幼儿园白丝。

上一篇：【RKI-275】高画質生中出し100連発16時間重报不雅察 | 可乐巨头双双加价，国产汽水契机来了？

下一篇：麻豆夏晴子男女之间性交的一些问题