一文带你理解Q-Learning的搜索策略，掌握强化

一文带你理解Q-Learning的搜索策略，掌握强化学习最常用算法

小新编译自 Medium
量子位出品 | 公众号 QbitAI

Q-Learning是强化学习中最常用的算法之一。

Medium上有篇文章，讨论了这种算法的一个重要部分：搜索策略。

量子位搬运过来，以下为博客译文：

我们先介绍下有关概念和符号。

强化学习

强化学习（Reinforcement Learning, RL）属于机器学习的一个分支，利用智能体（agent）通过状态感知、选择动作和接收奖励来与环境互动。每一步中，智能体都会通过观察环境状态，选择并执行一个动作，来改变其状态并获得奖励。

马尔可夫决策过程

在传统环境中，马尔可夫决策过程（Markov Decision Processes, MDP）可以解决不少RL问题。这里，我们不会深入讨论MDP的理论，有关MDP算法的更多内容可参考：

https://en.wikipedia.org/wiki/Markov_decision_process

我们用森林火灾来解释下MDP算法，代码实现可使用python MDP Toolbox：

http://pymdptoolbox.readthedocs.io/en/latest/api/example.html

森林管理包括两个动作，等待和砍伐。每年要做出一个决定，一是为林中动物保持古老森林，二是砍伐木材来而赚钱。而且，每年有p概率发生森林火灾，有1-p的概率为森林生长。

先定义MDP算法中一些参数S、A、P、R和γ，其中：

S是状态空间（有限），包括3种不同年龄树木，年龄级分别为0-20年、21-40年和40年以上；
A是动作空间（有限），即等待或砍伐；
P和R分别是转移矩阵和奖励矩阵，很容易写出它的闭合形式；
γ是数值在0与1之间的贴现因子，用来平衡短时和未来奖励的关系；
策略π是当前状态下决策的静态分布；

该模型的目标是在未给出MDP动态知识的情况下找到一个最优策略π*。

要注意，如果具有这个动态知识，直接用最优值迭代方法就能找到最优策略。

 1def optimal_value_iteration(mdp, V0, num_iterations, epsilon=0.0001):2 V=np.zeros((num_iterations+1, mdp.S))3 V[0][:]=np.ones(mdp.S)*V04 X=np.zeros((num_iterations+1, mdp.A, mdp.S))5 star=np.zeros((num_iterations+1,mdp.S))6 for k in range(num_iterations):7 for s in range(mdp.S):8 for a in range(mdp.A):9 X[k+1][a][s]=mdp.R[a][s] + mdp.discount*np.sum(mdp.P[a][s].dot(V[k]))10 star[k+1][s]=(np.argmax(X[k+1,:,s]))11 V[k+1][s]=np.max(X[k+1,:,s])12 if (np.max(V[k+1]-V[k])-np.min(V[k+1]-V[k])) < epsilon:13 V[k+1:]=V[k+1]14 star[k+1:]=star[k+1]15 X[k+1:]=X[k+1]16 break17 else: pass18 return star, V, X

奖励变化曲线

最优策略是等到森林处于古老且茂盛的状态时进行砍伐，这容易理解，因为在森林处于最古老的状态时砍伐的奖励是等待让森林生长的奖励的5倍，有r1=10，r2=50。

Q-Learning算法

Q-Learning算法中的“Q”代表着策略π的质量函数（Quality function），该函数能在观察状态s确定动作a后，把每个状态动作对 (s, a) 与总期望的折扣未来奖励进行映射。

Q-Learning算法属于model-free型，这意味着它不会对MDP动态知识进行建模，而是直接估计每个状态下每个动作的Q值。然后，通过在每个状态下选择具有最高Q值的动作，来绘制相应的策略。

如果智能体不断地访问所有状态动作对，则Q-Learning算法会收敛到最优Q函数[1]。

下面我们给出关于Q-Learning算法的Python实现。

要注意，这里的学习率α是w=4/5时的多项式，这里使用了引用[3]的结果。

这里使用的ε-greedy搜索策略，后面会详细介绍。

 1def q_learning(mdp, num_episodes, T_max, epsilon=0.01):2 Q=np.zeros((mdp.S, mdp.A))3 episode_rewards=np.zeros(num_episodes)4 policy=np.ones(mdp.S)5 V=np.zeros((num_episodes, mdp.S))6 N=np.zeros((mdp.S, mdp.A))7 for i_episode in range(num_episodes):8 # epsilon greedy exploration9 greedy_probs=epsilon_greedy_exploration(Q, epsilon, mdp.A)10 state=np.random.choice(np.arange(mdp.S))11 for t in range(T_max):12 # epsilon greedy exploration13 action_probs=greedy_probs(state)14 action=np.random.choice(np.arange(len(action_probs)), p=action_probs)15 next_state, reward=playtransition(mdp, state, action)16 episode_rewards[i_episode] +=reward17 N[state, action] +=118 alpha=1/(t+1)**0.819 best_next_action=np.argmax(Q[next_state]) 20 td_target=reward + mdp.discount * Q[next_state][best_next_action]21 td_delta=td_target - Q[state][action]22 Q[state][action] +=alpha * td_delta23 state=next_state24 V[i_episode,:]=Q.max(axis=1)25 policy=Q.argmax(axis=1)
26 return V, policy, episode_rewards, N

奖励变化曲线

探索与利用的平衡

序列学习算法会涉及到一个基本选择：

利用：根据当前信息做出最佳决策；
探索：做出其他决策来收集更多信息。

合理平衡好探索和利用的关系，对智能体的学习能力有重大影响。过多的探索会阻碍智能体最大限度地获得短期奖励，因为选择继续探索可能获得较低的环境奖励。另一方面，由于选择的利用动作可能不是最优的，因此靠不完全知识来利用环境会阻碍长期奖励的最大化。

ε-greedy搜索策略

该策略在每一步利用概率ε来选择随机动作。

这可能是最常用也是最简单的搜索策略，即用ε调整探索动作。在许多实现中，ε会随着时间不断衰减，但也有不少情况，ε会被设置为常数。

1def epsilon_greedy_exploration(Q, epsilon, num_actions):2 def policy_exp(state):3 probs=np.ones(num_actions, dtype=float) * epsilon / num_actions4 best_action=np.argmax(Q[state])5 probs[best_action] +=(1.0 - epsilon)6 return probs7 return policy_exp

不确定优先搜索策略

不确定优先（Optimism in Face of Uncertainty）搜索策略，最开始被用来解决随机式多臂赌博机问题 （Stochastic Multi-Armed Bandit），这是一个很经典的决策问题，赌徒要转动一个拥有n个槽的老虎机，转动每个槽都有固定回报概率，目标是找到回报概率最高的槽并且不断地选择它来获取最高的回报。

赌徒面临着利用还是探索的问题，利用机器获得最高的平均奖励或探索其他未玩过的机器，以期望获得更高的奖励。

这个问题与Q-Learning算法中的探索问题非常相似：

利用：在给定状态下选择具有最高Q值的动作；
探索：做出其他决策来探索更多信息，通过选择不了解或不够了解的环境。

不确定优先状态：只要我们对某个槽的回报不确定时不确定手臂的结果，我们就会考虑当前环境来选择最佳的手臂。

不确定优先算法有两方面：

若当前处于最佳环境，那算法会直接选择最佳的手臂；
若当前不处于最佳环境，则算法会尽量降低不确定性。

置信区间上界（Upper Confidence Bound, UCB）是一种常用的不确定优先算法[2]，我们把它结合到Q-Learning方法中，有：

Q(s, a)：状态s下动作a缩放后的Q值；
N(t，s，a)：在时刻t和状态s下动作a被选择的次数。

此时，智能体的目标为Argmax {Q(s, a)/ a ∈ A}，这意味着在状态s中选择具有最高Q值的动作。但是在t时刻Q（s，a）值是未知的。

在t时刻，Q估计值为Q(t, s, a)，则有Q(s,a)=+ (Q(s,a) ? )。

(Q(s,a) ? )为相应误差项。

霍夫不等式 （Hoeffding’s inequality）可用来处理这类误差。事实上，当t变化时，有：

优先策略可写成：Argmax {Q+(t, s, a)/ a ∈ A}，且有：

当β大于0时，执行探索动作；当β为0时，仅利用已有估计。

这种界限方法是目前最常用的，基于这种界限后面也有许多改进工作，包括UCB-V，UCB*，KL-UCB，Bayes-UCB和BESA[4]等。

下面给出经典UCB算法的Python实现，及其在Q-Learning上的应用效果。

1def UCB_exploration(Q, num_actions, beta=1):2 def UCB_exp(state, N, t):3 probs=np.zeros(num_actions, dtype=float)4 Q_=Q[state,:]/max(Q[state,:]) + np.sqrt(beta*np.log(t+1)/(2*N[state]))5 best_action=Q_.argmax()6 probs[best_action]=17 return probs8 return UCB_exp

奖励变化曲线

UCB搜索算法应该能很快地获得高额奖励，但是前期搜索对训练过程的影响较大，有希望用来解决更复杂的多臂赌博机问题，因为这种方法能帮助智能体跳出局部最优值。

下面是两种策略的对比图。

总结与展望

Q-Learning是强化学习中最常用的算法之一。在这篇文章中，我们讨论了搜索策略的重要性和如何用UCB搜索策略来替代经典的ε-greedy搜索算法。

更多更细致的优先策略可以被用到Q-Learning算法中，以平衡好利用和探索的关系。

参考文献

[1] T. Jaakkola, M. I. Jordan, and S. P. Singh, “On the convergence of stochastic iterative dynamic programming algorithms” Neural computation, vol. 6, no. 6, pp. 1185–1201, 1994.

[2] P. Auer, “Using Confidence Bounds for Exploitation-Exploration Trade-offs”, Journal of Machine Learning Research 3 397–422, 2002.

[3] E. Even-Dar, and Y. Mansour, “Learning Rates for Q-learning”, Journal of Machine Learning Research 5 1–25, 2003.

[4] A. Baransi, O.-A. Maillard, and S. Mannor, “Sub-sampling for multi-armed bandits”, Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 115–131, 2014.

原文：https://medium.com/sequential-learning/optimistic-q-learning-b9304d079e11

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

?'?' ? 追踪AI技术和产品新动态

础算法

一、排序

冒泡排序

//冒泡排序
function bubbleSort(arr) {
 for(var i=1, len=arr.length; i < len - 1; ++i) {
 for(var j=0; j <=len - i; ++j) {
 if (arr[j] > arr[j + 1]) {
 let temp=arr[j];
 arr[j]=arr[j + 1];
 arr[j + 1]=temp;
 }
 }
 }
}

插入排序

//插入排序 过程就像你拿到一副扑克牌然后对它排序一样
function insertionSort(arr) {
 var n=arr.length;
 // 我们认为arr[0]已经被排序，所以i从1开始
 for (var i=1; i < n; i++) {
 // 取出下一个新元素，在已排序的元素序列中从后向前扫描来与该新元素比较大小
 for (var j=i - 1; j >=0; j--) {
 if (arr[i] >=arr[j]) { // 若要从大到小排序，则将该行改为if (arr[i] <=arr[j])即可
 // 如果新元素arr[i] 大于等于 已排序的元素序列的arr[j]，
 // 则将arr[i]插入到arr[j]的下一位置，保持序列从小到大的顺序
 arr.splice(j + 1, 0, arr.splice(i, 1)[0]);
 // 由于序列是从小到大并从后向前扫描的，所以不必再比较下标小于j的值比arr[j]小的值，退出循环
 break; 
 } else if (j===0) {
 // arr[j]比已排序序列的元素都要小，将它插入到序列最前面
 arr.splice(j, 0, arr.splice(i, 1)[0]);
 }
 }
 }
 return arr;
}

当目标是升序排序，最好情况是序列本来已经是升序排序，那么只需比较n-1次，时间复杂度O(n)。最坏情况是序列本来是降序排序，那么需比较n(n-1)/2次，时间复杂度O(n^2)。所以平均来说，插入排序的时间复杂度是O(n^2)。显然，次方级别的时间复杂度代表着插入排序不适合数据特别多的情况，一般来说插入排序适合小数据量的排序。
快速排序

//快速排序
function qSort(arr) {
 //声明并初始化左边的数组和右边的数组
 var left=[], right=[];
 //使用数组第一个元素作为基准值
 var base=arr[0];
 //当数组长度只有1或者为空时，直接返回数组，不需要排序
 if(arr.length <=1) return arr;
 //进行遍历
 for(var i=1, len=arr.length; i < len; i++) {
 if(arr[i] <=base) {
 //如果小于基准值，push到左边的数组
 left.push(arr[i]);
 } else {
 //如果大于基准值，push到右边的数组
 right.push(arr[i]);
 }
 }
 //递归并且合并数组元素
 return [...qSort(left), ...[base], ...qSort(right)]; //return qSort(left).concat([base], qSort(right));
}

补充：

在这段代码中，我们可以看到，这段代码实现了通过pivot区分左右部分，然后递归的在左右部分继续取pivot排序，实现了快速排序的文本描述，也就是说该的算法实现本质是没有问题的。

虽然这种实现方式非常的易于理解。不过该实现也是有可以改进的空间，在这种实现中，我们发现在函数内定义了left/right两个数组存放临时数据。随着递归的次数增多，会定义并存放越来越多的临时数据，需要Ω(n)的额外储存空间。

因此，像很多算法介绍中，都使用了原地（in-place）分区的版本去实现快速排序，我们先介绍什么是原地分区算法。

原地（in-place）分区算法描述

从数列中挑出一个元素，称为"基准"（pivot），数组第一个元素的位置作为索引。
遍历数组，当数组数字小于或者等于基准值，则将索引位置上的数与该数字进行交换，同时索引+1
将基准值与当前索引位置进行交换

通过以上3个步骤，就将以基准值为中心，数组的左右两侧数字分别比基准值小或者大了。这个时候在递归的原地分区，就可以得到已排序后的数组。

原地分区算法实现

// 交换数组元素位置
function swap(array, i, j) {
 var temp=array[i];
 array[i]=array[j];
 array[j]=temp;
}
function partition(array, left, right) {
 var index=left;
 var pivot=array[right]; // 取最后一个数字当做基准值，这样方便遍历
 for (var i=left; i < right; i++) {
 if (array[i] <=pivot) {
 swap(array, index, i);
 index++;
 }
 }
 swap(array, right, index);
 return index;
}

因为我们需要递归的多次原地分区，同时，又不想额外的地址空间所以，在实现分区算法的时候会有3个参数，分别是原数组array，需要遍历的数组起点left以及需要遍历的数组终点right

最后返回一个已经排好序的index值用于下次递归，该索引对应的值一定比索引左侧的数组元素小，比所有右侧的数组元素大。

再次基础上我们还是可以进一步的优化分区算法，我们发现 <=pivot可以改为<pivot,这样可以减少一次交换

原地分区版快速排序实现

function quickSort(array) {
 function swap(array, i, j) {
 var temp=array[i];
 array[i]=array[j];
 array[j]=temp;
 }
 function partition(array, left, right) {
 var index=left;
 var pivot=array[right]; // 取最后一个数字当做基准值，这样方便遍历
 for (var i=left; i < right; i++) {
 if (array[i] < pivot) {
 swap(array, index, i);
 index++;
 }
 }
 swap(array, right, index);
 return index;
 }
 function sort(array, left, right) {
 if (left > right) {
 return;
 }
 var storeIndex=partition(array, left, right);
 sort(array, left, storeIndex - 1);
 sort(array, storeIndex + 1, right);
 }
 sort(array, 0, array.length - 1);
 return array;
}

二、字符串

回文字符串

//判断回文字符串
function palindrome(str) {
 var reg=/[\W\_]/g;
 var str0=str.toLowerCase().replace(reg, "");
 var str1=str0.split("").reverse().join("");
 return str0===str1;
}

翻转字符串

function reverseString(str) {
 return str.split("").reverse().join("");
}

字符串中出现最多次数的字符

function findMaxDuplicateChar(str) {
 var cnt={}, //用来记录所有的字符的出现频次
 c=''; //用来记录最大频次的字符
 for (var i=0; i < str.length; i++) {
 var ci=str[i];
 if (!cnt[ci]) {
 cnt[ci]=1;
 } else {
 cnt[ci]++;
 }
 if (c=='' || cnt[ci] > cnt[c]) {
 c=ci;
 }
 }
 console.log(cnt)
 return c;
}

三、数组

数组去重

//数组去重
function uniqueArray(arr) {
 var temp=[];
 for (var i=0; i < arr.length; i++) {
 if (temp.indexOf(arr[i])==-1) {
 temp.push(arr[i]);
 }
 }
 return temp;
 //or
 return Array.from(new Set(arr));
}

四、查找

二分查找

//二分查找
function binary_search(arr, l, r, v) {
 if (l > r) {
 return -1;
 }
 var m=parseInt((l + r) / 2);
 if (arr[m]==v) {
 return m;
 } else if (arr[m] < v) {
 return binary_search(arr, m+1, r, v);
 } else {
 return binary_search(arr, l, m-1, v);
 }
}

将二分查找运用到之前的插入排序中，形成二分插入排序，据说可以提高效率。但我测试的时候也许是数据量太少，并没有发现太明显的差距。。大家可以自己试验一下~（譬如在函数调用开始和结束使用console.time('插入排序耗时')和console.timeEnd('插入排序耗时')）

五、树的搜索/遍历

深度优先搜索

//深搜 非递归实现
function dfs(node) {
 var nodeList=[];
 if (node) {
 var stack=[];
 stack.push(node);
 while(stack.length !=0) {
 var item=stack.pop();
 nodeList.push(item);
 var children=item.children;
 for (var i=children.length-1; i >=0; i--) {
 stack.push(children[i]);
 }
 }
 }
 return nodeList;
}
//深搜 递归实现
function dfs(node, nodeList) {
 if (node) {
 nodeList.push(node);
 var children=node.children;
 for (var i=0; i < children.length; i++) {
 dfs(children[i], nodeList);
 }
 }
 return nodeList;
}

广度优先搜索

//广搜 非递归实现
function bfs(node) {
 var nodeList=[];
 if (node !=null) {
 var queue=[];
 queue.unshift(node);
 while (queue.length !=0) {
 var item=queue.shift();
 nodeList.push(item);
 var children=item.children;
 for (var i=0; i < children.length; i++)
 queue.push(children[i]);
 }
 }
 return nodeList;
}
//广搜 递归实现
var i=0; //自增标识符
function bfs(node, nodeList) {
 if (node) {
 nodeList.push(node);
 if (nodeList.length > 1) {
 bfs(node.nextElementSibling, nodeList); //搜索当前元素的下一个兄弟元素
 }
 node=nodeList[i++];
 bfs(node.firstElementChild, nodeList); //该层元素节点遍历完了，去找下一层的节点遍历
 }
 return nodeList;
}

高阶函数衍生算法

1.filter去重

filter也是一个常用的操作，它用于把Array的某些元素过滤掉，然后返回剩下的元素。也可以这么理解，filter的回调函数把Array的每个元素都处理一遍，处理结果返回false则过滤结果去除该元素，true则留下来

用filter()这个高阶函数，关键在于正确实现一个“筛选”函数。

其实这个筛选函数有多个参数，filter(function (element, index, self)，演示一个使用filter去重，像这样：

var r,
 arr=['apple', 'strawberry', 'banana', 'pear', 'apple', 'orange', 'orange', 'strawberry'];
 r=arr.filter(function (element, index, self) {
 return self.indexOf(element)===index;
 //拿到元素，判断他在数组里第一次出现的位置，是不是和当前位置一样，一样的话返回true，不一样说明重复了，返回false。
 });

2.sort排序算法

排序也是在程序中经常用到的算法。无论使用冒泡排序还是快速排序，排序的核心是比较两个元素的大小。如果是数字，我们可以直接比较，但如果是字符串或者两个对象呢？直接比较数学上的大小是没有意义的，因此，比较的过程必须通过函数抽象出来。通常规定，对于两个元素x和y，如果认为x < y，则返回-1，如果认为x==y，则返回0，如果认为x > y，则返回1，这样，排序算法就不用关心具体的比较过程，而是根据比较结果直接排序。

值得注意的例子

// 看上去正常的结果:
['Google', 'Apple', 'Microsoft'].sort(); // ['Apple', 'Google', 'Microsoft'];
// apple排在了最后:
['Google', 'apple', 'Microsoft'].sort(); // ['Google', 'Microsoft", 'apple']
// 无法理解的结果:
[10, 20, 1, 2].sort(); // [1, 10, 2, 20]

解释原因

第二个排序把apple排在了最后，是因为字符串根据ASCII码进行排序，而小写字母a的ASCII码在大写字母之后。

第三个排序结果，简单的数字排序都能错。

这是因为Array的sort()方法默认把所有元素先转换为String再排序，结果’10’排在了’2’的前面，因为字符’1’比字符’2’的ASCII码小。

因此我们把结合这个原理：

var arr=[10, 20, 1, 2];
 arr.sort(function (x, y) {
 if (x < y) {
 return -1;
 }
 if (x > y) {
 return 1;
 }
 return 0;
 });
 console.log(arr); // [1, 2, 10, 20]

上面的代码解读一下：传入x，y，如果x<y，返回-1，x与前面排，如果x>y，返回-1，x后面排，如果x=y，无所谓谁拍谁前面。

还有一个，sort()方法会直接对Array进行修改，它返回的结果仍是当前Array，一个栗子：

入排序概述

插入排序是将数组分为待排序和已排序两个区间。依次从待排序区间中取出一项，用该项跟已排序区间项逐个对比，通过位移来实现插入到对应位置的排序方式。插入排序平均时间复杂度是：O(n^2)

步骤是：

先建立两个循环，外循环用于遍历待排序区间，内循环用来遍历已排序区间。
从待排序中按顺序取出一项暂存起来，将该项自右往左与已排序项逐个对比，当遇到比自己大的项(表示升序)时，将该位置右移1位。
再将待排序区间里右移后空出来的位置赋值为暂存项。此时已排序区间增加了一项，待排序区间减少了一项，继续第2步直到待排序遍历完成。

插入排序实现

插入排序有多种实现方式，这里介绍常见的3种：

1、通用实现方式，自左往右遍历待排序数组，再从当前的左侧位置开始自右往左循环已排序数组，再逐个比较和移动被比较项，最后将当前项填入到空缺位置上。

2、利用数组splice方法，类似打扑克牌，先拿出要排序的牌，然后找准位置插入。这种方式利用了原生API，减少了数组反复移动位置的操作。性能上之前差不多。

3、新建数组法与splice结合法，这种方式会多建立一个数组，也就会多占用一个空间，但理解起来最容易，也利用了JS语言的特性。

插入排序通俗说明

插入排序与冒泡、选择都是比较简单好懂的排序方式，性能上也差不多。插入排序通俗来讲就像打扑克牌排序，你抓了一手牌之后。假如是：2、1、5、3、4，你会：

1、先把牌分成两组，假定左侧第一张牌为一组(标识A，这时只有2)，其他牌为另外一组(标识B，包括1、5、3、4)。

2、从B组里面从左起选择第一张牌（位置空出等待填充），也就是1，拿这张牌与A组里面从右往左挨个对比，当遇到比这张牌还小时就在这个位置停留下来(如果A组全部比这张牌都大那就在A组最前面停留下来，如果A组里没有比这张牌大的就在当前位置停留)。

3、然后将A组里比这张牌(也就是1)大的牌逐个往右移动1位，原B组空出位置被填充，此时刚才停留的位置空出，将1这张牌插入在这里。这时候A组增加一个数字，变为：1、2，B组减少1个，变为：5、3、4。

4、移动指针，继续指向B组的第一个，也就是5。用5这张牌重复第二部，即拿5去跟A组自右往左逐个比较，然后插入到A组。此时A组：1、2、5，B组：3、4。

5、将B组里数字按照第二部重复操作，直到B组为空时整个循环结束。此时A组为：1、2、3、4、5。

在线咨询

上一篇：借助Spire.Doc控件，在Java中将 Word
下一篇：pc端思维导图软件，“高颜值”创意脑图就是它

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

一文带你理解Q-Learning的搜索策略，掌握强化

参考文献

入排序概述

插入排序实现

插入排序通俗说明

您的项目需求