简单博弈看一个具体的博弈游戏:圆圈中的数字代表一个状态。L/R/M 代表智能体可采取的动作。叶子节点的数字代表智能体 A 的得分(B的得分是相反数)首先 A 做出一个选择(动作),随后 B 做出一个动作,然后 A 可视情况再次做出一个动作。博弈论一个基本前提是:假设所有玩家都想最大化自己的得分,并都可以正确做出最佳动作,并都相信其他玩家也会这样做。这是博弈问题最简单的一种:两个玩家的零和有限...
为了便于描述,这里依然定义一个“世界”:令空白格子的奖励为1.Q-TableQ-table 是 Q-learning 的核心。它是一个表格,记录了每个状态下采取不同动作,所获取的最大长期奖励期望。通过此,就可以知道每一步的最佳动作是什么。Q-table 的每一列代表一个动作,每一行表示一个状态。则每个格子的值就是此状态下采取此动作获得的最大长期奖励期望。例如: U↑D↓L←R→START?0...
为了便于描述,首先定义一个“世界”,如下:从起点开始,每次选择往四个方向走一格子。目标是到达绿色格子,游戏结束,碰到红色则失败,游戏结束。黑色格子为障碍物,碰到障碍物或撞到墙壁则原地不动。但是每次移动准确率只有80%,另外有20%的概率向与目标方向垂直的方向移动,这两个垂直的方向概率各是10%.名词定义STATES(状态):顾名思义,就是智能体当前的状态。在这个世界中,表现为「坐标」。则开始...
为了方便说明,假设有以下问题场景:一个班有50人,在某场考试中有40人及格,10人不及格。现在需要根据一些特征预测出所有及格的学生。-某一模型执行下来,给出了39人,其中37人确实及格了,剩下2人实际上不及格。样本要了解这些指标的含义,首先需要了解两种样本:正样本:即属于某一类(一般是所求的那一类)的样本。在本例中是及格的学生。负样本:即不属于这一类的样本。在本例中是不及格的学生。识别结果于...