人工智能机器学习常用算法总结及各个常用算法精确率对比(5)

发布时间：2020-05-12 15:44 所属栏目：53 来源：站长网

导读：Q-Learning是一种无模型的强化学习技术。具体来说，可以使用Q学习来为任何给定的（有限的）马尔可夫决策过程（MDP）找到最优的动作选择策略。它通过学习一个动作价值函数，最终给出在给定状态下采取给定动作的预期

Q-Learning是一种无模型的强化学习技术。具体来说，可以使用Q学习来为任何给定的（有限的）马尔可夫决策过程（MDP）找到最优的动作选择策略。它通过学习一个动作价值函数，最终给出在给定状态下采取给定动作的预期效用，然后遵循最优策略。一个策略是代理在选择动作后遵循的规则。当这种动作值函数被学习时，可以通过简单地选择每个状态中具有最高值的动作来构建最优策略。 Q-learning的优点之一是能够比较可用操作的预期效用，而不需要环境模型。此外，Q学习可以处理随机过渡和奖励的问题，而不需要任何适应。已经证明，对于任何有限的MDP，Q学习最终找到一个最优策略，从总体奖励的预期值返回到从当前状态开始的所有连续步骤是最大可实现的意义。

机器学习常用Python包 sklearn

开源机器学习模块，包括分类、回归、聚类系列算法，主要算法有SVM、逻辑回归、朴素贝叶斯、Kmeans、DBSCAN等；也提供了一些语料库。

学习地址：https://scikit-learn.org/stable/modules/classes.html

numpy

Python的语言扩展，定义了数字的数组和矩阵。提供了存储单一数据类型的多维数组(ndarray)和矩阵（matrix）。

学习地址：

scipy

其在numpy的基础上增加了众多的数学、科学以及工程计算中常用的模块，例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等等。

学习地址：https://www.scipy.org/

pandas

直接处理和操作数据的主要package，提供了dataframe等方便处理表格数据的数据结构

学习地址：