文献综述(或调研报告):
1.机器学习的方式
机器学习可以大致分为监督学习、无监督学习、半监督学习、和强化学习四种方式。其中,监督学习是指对训练数据进行标记,从而使每个输入的对象都有期望的输出值。通过算法分析数据,最后推断输出值,直至得到理想的输出正确效果。算法通常用于分类和回归。
无监督学习主要是指利用事先不知道答案的一组数据,通过算法使他们按照各自的性质,分成很多不同的类别。数据虽然没有标签,但最终会把相似的类型分组,也就是所谓的聚类。
半监督学习的办法则是对输入数据的一少部分进行标识。是监督学习的延伸方法。这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。同样可以应用于分类和回归。优势在于与使用所有标签数据的模型相比,使用训练集的训练模型在训练时可以更为准确,而且训练成本更低。
强化学习是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。如果智能体的某个行为策略导致环境正的奖赏(强化信号),那么智能体以后产生这个行为策略的趋势便会加强。不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻做出调整。常见的应用场景包括动态系统以及机器人控制等。
|
算法名称 |
算法特点 |
应用方向 |
|
k-Means(K均值) |
监督学习 |
回归,分类 |
|
k-Nearest Neighbors(K近邻算法) |
监督学习 |
回归 |
|
Linear Regression(线性回归) |
监督学习 |
回归 |
|
Logistic Regression(逻辑回归) |
监督学习 |
回归 |
|
Support Vector Machines (SVMs)(支持向量机) |
监督学习 |
回归,分类 |
|
Decision Trees and Random Forests(决策树和随机深林) |
监督学习 |
回归 |
|
Neural networks(神经网络) |
无监督学习 |
聚类 |
|
Hierarchical Cluster Analysis (HCA)(层序聚类分析) |
无监督学习 |
聚类 |
|
Expectation Maximization(期望最大化) |
无监督学习 |
聚类 |
|
Principal Component Analysis (PCA)(组成成分分析) |
无监督学习 |
聚类 |
|
Kernel PCA |
无监督学习 |
聚类 |
|
Locally-Linear Embedding (LLE)(局部线性嵌入) |
无监督学习 |
聚类 |
|
t-distributed Stochastic Neighbor Embedding (t-SNE)(随机近邻嵌入) |
无监督学习 |
聚类 |
2.机器学习常用的算法介绍
- 回归算法
回归算法是与统计学密切联系的一类算法,通过采用对误差的衡量来探索变量之间的关系。其所描述的算法是指一类回归算法,比如最小二乘法,逻辑回归,逐步式回归,多元自适应回归样条等多种回归算法。其中两个重要的子类是线性回归和逻辑回归。
线性回归指的是根据所输入的数据给出一条直线来拟合,使各个数据的误差尽量最小。逻辑回归与线性回归处理的问题不一样,一般是离散分类问题,比如对于垃圾邮件的判定等用途。
实现方面的话,逻辑回归只是对对线性回归的计算结果加上了一个Sigmoid函数,将数值结果转化为了0到1之间的概率(Sigmoid函数的图像一般来说并不直观,你只需要理解对数值越大,函数越逼近1,数值越小,函数越逼近0),接着我们根据这个概率可以做预测,例如概率大于0.5,则这封邮件就是垃圾邮件,或者肿瘤是否是恶性的等等。
- 神经网络
神经网络(ANN)算法在20世纪80年代在机器学习中很流行,但在90年代逐渐消失。现在,有了“深度学习”的承诺,神经网络又重新成为最强大的机器学习算法之一。神经网络起源于对大脑如何工作的研究。早期生物学家使用神经网络来模拟大脑。机器学习学者利用神经网络进行机器学习实验,发现视觉识别和语音识别的效果都很好。
BP算法(一种用于加速神经网络训练过程的数值算法)诞生后,神经网络的发展进入了一个热潮。BP算法的发明者之一就是杰弗里bull;辛顿机器学习专家介绍了早些时候。
在神经网络中,每个处理单元实际上是一个逻辑回归模型,接收来自上层的输入和传递模型的预测结果作为输出到下一个水平。通过这样一个过程,神经网络可以完成非常复杂的非线性分类。
- SVM(支持向量机)
支持向量机(SVM)算法在某种程度上这可能是加强逻辑回归算法:通过给予更严格的优化逻辑回归算法,支持向量机(SVM)算法可以获得更好的分类逻辑回归技术,但是没有某种功能,支持向量机(SVM)算法是最多一个更好的线性分类技术。
但是,通过与高斯核相结合,支持向量机可以表达非常复杂的分类边界,从而达到很好的分类效果。实际上,核函数是一个特殊的函数,其最典型的特征就是它可以将低维空间映射到高维空间。
- 聚类算法
前面算法的一个显著特征是我的训练数据包含在标签,可以为其他数据从训练模型来预测未知标签在以下算法,训练数据不包括标签,和算法的目的是通过培训,推断的数据标签这种算法有一个统称,即无监督算法(有标签的数据前面的算法是有监督算法)。无监督算法是聚类算法中最典型的代表。
- 降维算法
降维算法也是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。在这里,维度其实表示的是数据的特征量的大小,例如,房价包含房子的长、宽、面积与房间数量四个特征,也就是维度为4维的数据。可以看出来,长与宽事实上与面积表示的信息重叠了,例如面积=长 times; 宽。通过降维算法我们就可以去除冗余信息,将特征减少为面积与房间数量两个特征,即从4维的数据压缩到2维。于是我们将数据从高维降低到低维,不仅利于表示,同时在计算上也能带来加速。
引用:
[1]计算机的潜意识.从机器学习谈起[EB/OL]. https://www.cnblogs.com/subconscious/p/4107357.html#four, 2014-12-31.
[2]王萌.机器学习常见算法分类汇总[EB/OL]. https://www.ctocio.com/hotnews/15919.html, 2014-6-25.
[3]一颗小树x.机器学习分类[EB/OL]. https://blog.csdn.net/qq_41204464/article/details/92759626, 2019-6-18.
[4]何清;李宁;罗文娟;史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014-4,27(4):327-336.
[5]李旭然;丁晓红.机器学习的五大类别及其主要算法综述[J].软件导刊,2019-7,18(7):4-10.
文献综述(或调研报告):
1.机器学习的方式
机器学习可以大致分为监督学习、无监督学习、半监督学习、和强化学习四种方式。其中,监督学习是指对训练数据进行标记,从而使每个输入的对象都有期望的输出值。通过算法分析数据,最后推断输出值,直至得到理想的输出正确效果。算法通常用于分类和回归。
无监督学习主要是指利用事先不知道答案的一组数据,通过算法使他们按照各自的性质,分成很多不同的类别。数据虽然没有标签,但最终会把相似的类型分组,也就是所谓的聚类。
半监督学习的办法则是对输入数据的一少部分进行标识。是监督学习的延伸方法。这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。同样可以应用于分类和回归。优势在于与使用所有标签数据的模型相比,使用训练集的训练模型在训练时可以更为准确,而且训练成本更低。
强化学习是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。如果智能体的某个行为策略导致环境正的奖赏(强化信号),那么智能体以后产生这个行为策略的趋势便会加强。不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻做出调整。常见的应用场景包括动态系统以及机器人控制等。
