可玩棋牌

      <tbody id='h3ckqznl'></tbody>
  • <small id='s94bok9t'></small><noframes id='vl8amxrl'>

    快乐棋牌-微软麻将AI首次公开细节:专业十级水平,未来可能用于财务预测

    微软麻将AI首次公开细节:专业十级水平,未来可能用于财务预测

    当麻将AISuphx系统启动时, 很多人都非常注意。您可以在此软件中看到AI开发的许多前景,AISuphx, 迄今为止第一个达到10级水平的人, 有超强的能力让我们一起看一下具体情况。微软麻将AI首次公开细节:专业十级水平,在将来, 它可以用于财务预测。 麻将游戏是一种信息不完整的游戏,具有多人参与和多轮卡。麻将的每个游戏包含许多回合。

    游戏的结果由累积的回合点决定。失去一圈并不意味着玩家失去所有比赛。为了保证最终的胜利,玩家可能会故意输掉比赛。此外,打麻将有很多方法。

    在不同的Hu卡方式下,卡也有很大的不同。

    相应地,游戏每一轮的得分也不同。所谓的不完全信息游戏,这意味着参与者不了解游戏的整体情况。在麻将游戏中每个玩家最多拥有13张对他人不可见的卡。

    所有玩家都看不到卡墙上的14张卡。此外,桌子中央有70张卡片。仅当播放器触摸或播放时,卡的此部分的正面仅可见。在这个规则下玩家每次做出选择时,下一手可能有超过10种趋势。玩家很难根据手中的牌来判断下一个动作。但是必须仔细考虑并权衡。

    这恰恰是建立麻将人工智能模型的难点:人工智能很难将奖励信号与观察到的信息相关联。

    在微软的研究中,研究人员选择使用日本4人麻将(RiichiMahjong)规则训练Suphx模型,培训数据来自天后社区。培训过程耗时两天,研究人员使用1。500个游戏位于44个图形处理单元上。1。 原型:深度卷积神经网络深度卷积神经网络(深度卷积神经网络)已用于诸如Go和Chess之类的游戏中。其强大的演示功能已经过验证。Suphx还选择了深度卷积神经网络作为原型。与棋盘游戏不同,麻将玩家获得的信息不是自然图像格式。为此,研究人员设计了一系列功能,将观察到的信息编码为深层卷积神经系统可以理解的形式。

    2。 培训方式:监督学习+分层强化学习,在学习5种模式的训练过程中,原型首先使用人类职业玩家的数据进行监督学习(supervised learning),然后执行分层强化学习(自我扮演强化学习)。

    研究人员设计并应用策略梯度算法(policygradientalgorithm)进行分层强化学习。3。 除了上述设置之外, GRU网络+ Oracle代理+ pMCPA微软团队还引入了其他几种技术:全球奖励预测器(GRU网络)。

    预测者可以提前预测游戏的最终结果,提供有效的学习信号,从而使策略网络可执行。

    4。 胜负判断模型Suphx使用基于规则的胜负判断模型。该模型可以检查其他玩家玩的纸牌和强卡是否可以构成获胜纸牌。假设已经形成胜局,该模型根据以下规则做出决定:如果这不是比赛的最后一轮,宣布当前玩家赢得本轮比赛; 如果这是比赛的最后一轮,但是,当前玩家的累计总得分是四位玩家中最低的,没有公告。

    反之,宣布当前玩家赢得本轮比赛。

    决策过程:按照规则抽牌和打牌,模型决定了游戏的结果,有两种情况需要麻将玩家采取行动:从墙上拿纸牌和打牌。Suphx也是如此。

    微软麻将AI论文发布了公开的技术细节Suphx系统使用了深度强化学习,在学习了5000场游戏之后,在日本专业麻将比赛平台天峰”上击败了许乐淘棋牌苹果版多麻将选手,获得平台 Special Room”的十个最高等级。如此强大的麻将AI中国科学技术大学的研究团队如何 建清华大学和南开大学?在最新版的论文中,进行了深入的介绍。

    从纸上我们还了解到Suphx 经过进一步研究级别也更高。在拥有350多个功能的天丰”平台上,000名玩家,被官方评为超过其等级的玩家,这是计算机程序第一次超过麻将中大多数最顶尖的人类玩家。

    五种主要模式和强化学习,AISuphx包含一系列卷积神经网络,它学习了五个模型来处理不同的情况,包括丢弃(丢弃模型), 里一模型 周杰伦模型 傍模型和孔模型。

    在.的基础上,Suphx使用另一种基于规则的模型梦想棋牌官方网站,要决定是否宣布获胜者并进入下一轮,检查是否可以从其他玩家丢弃的卡中判断获胜卡,或者从墙上绘制的卡片中进行判断。据报道Suphx培训过程分为三个步骤。首先,它的五个模型都是使用从天峰”平台收集的顶级人类玩家的日志进行训练的。然后,使用一组基于CPU的麻将模拟器和基于GPU的轨迹生成推理引擎,通过自我游戏强化学习对系统进行微调。

    最后,在在线游戏中使用运行时策略调整来观察当前回合的结果,使系统性能更好。

    Suphx中的分布式强化学习系统归功于麻将游戏,对手的信息不明,因此,Suphx尝试了预言性辅导技术来提高强化学习的有效性。在自我游戏的训练阶段,使用隐藏的信息来指导模型训练的方向,从而增强了AI模型对可见信息的理解,并找到有效的决策依据。

    在持续优化中RL-2最终取得了更好的性能。 有趣的是研究人员写道,Suphx的防守非常强大”,屈辱的可能性很低,只要%,而且它发展了自己的游戏风格,可以保证卡的安全,并以半领带获胜。

    AI玩家(南部)将选择保守玩法并放弃篮子中的六个桶。因为卡片已经在桌子上了,该论文的合著者写道:最现实的问题例如, 金融市场预测和物流优化具有与麻将相同的特征。例如复杂的操作/奖励规则, 信息问题不完善, 等等Suphx设计的麻将技术包括全球奖励预测, 先知指导和政策调整, 等等都有很大的潜力,将来可以在现实世界中广泛使用,帮助解决实际和复杂的实际问题

    游戏 老友棋牌下载 麻将 掘金棋牌游戏 模型 快乐棋牌

    <small id='88n0h4hb'></small><noframes id='5d5ouu6a'>

      <tbody id='0chg2tlm'></tbody>
      <tbody id='p8texzc0'></tbody>
  • <small id='2617vjc3'></small><noframes id='l94fnl1n'>