专注于快乐的事情

机器学习概论

机器学习概念

几个概念的关系

人工智能是计算机科学的一个分支,目的是开发一种拥有智能行为的机器,让机器像人类一样思考。
机器学习是人工智能的一种实现方法。

大数据是人工智能的基础,而使大数据转变为知识或生产力,离不开机器学习(Machine Learning),可以说机器学习是人工智能的核心,是使机器具有类似人的智能的根本途径。

而深度学习是机器学习的一个分支。对于传统的机器学习来说,特征提取不是一件简单的事情。在一些复杂问题上,要想通过人工的方式设计有效的特征集合,往往要花费很多的时间和精力。

深度学习解决的核心问题之一就是自动将简单的特征组合成更加复杂的特征,并利用这些组合特征解决问题。它除了可以学习特征和任务之间的关联以外,还能自动从简单特征中提取更加复杂的特征。

特征

一般数据可以表示为一个矩阵,根据应用领域的不同,数据矩阵的行可以表示为实体、对象、特征向量、元组等。列可以被称为属性、特征维、度、变量、域等。

特征一般在模型中作为输入变量,即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征。一般表示如下:

$\{x_1, x_2, … x_N\}$
$\sqrt {a_{1},a_{2},a_{i}\ldots \ldots a_{4}}$

标签

标签是我们要预测的事物,即简单线性回归中的 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。

样本

样本是指数据的特定实例:x。(我们采用粗体 x 表示它是一个矢量。)我们将样本分为以下两类:

  • 有标签样本
  • 无标签样本

有标签样本同时包含特征和标签。

模型

模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段:

  • 训练是指创建或学习模型。也就是说,向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。

  • 推断是指将训练后的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测。

算法分类

type

监督式学习和无监督式学习

是否在人类监督下训练(监督式学习、无监督式学习、半监督式学习和强化学习)

一些最重要的监督式学习的算法:

  • K-近邻算法
  • 线性回归
  • 逻辑回归
  • 支持向量机
  • 决策树和随机森林
  • 神经网络

无监督式学习算法:

  • 聚类算法
  • k-平均算法(k-Means)
  • 分层聚类分析(Hierarchical Cluster Analysis,HCA)
  • 最大期望算法(Expectation Maximization)
  • 可视化和降维
  • 主成分分析(PCA)
  • 核主成分分析(Kernel PCA)
  • 关联规则学习
  • Apriori

半监督式学习

大多数半监督式学习算法是无监督式和监督式算法的结合。例如深度信念网络(DBN),它基于一种互相堆叠的无监督式组件,这个组件叫作受限玻尔兹曼机(RBM)。受限玻尔兹曼机以无监督的方式进行训练,然后使用监督式学习对整个系统进行微调。

强化学习

基于实例与基于模型的学习

另一种对机器学习系统进行分类的方法,是简单地将新的数据点和已知的数据点进行匹配,还是像科学家那样,对训练数据进行模式检测,然后建立一个预测模型(基于实例的学习和基于模型的学习)。

基于实例的学习

系统先完全记住学习示例(example),然后通过某种相似度度量方式将其泛化到新的实例

基于模型的学习

从一组示例集中实现泛化的另一种方法是构建这些示例的模型,然后使用该模型进行预测。这就是基于模型的学习

回归和分类

回归这个词的来历?

回归是弗兰西斯·加尔顿提出的统计学术语,当时他正研究一个现象,那就是高个父母的孩子往往比他们要矮一些。由于高个父母的孩子在变矮,他就把这个趋势称为均数回归。后来这个名词就被他用于分析变量之间相关性的方法。

多输出的回归问题

多类策略

聚类和降维

降维

降维的目的是在不丢失太多信息的前提下简化数据。汽车的里程与其使用年限存在很大的相关性,所以降维算法会将它们合并成一个代表汽车磨损的特征。这个过程叫作特征提取

通常比较好的做法是,先使用降维算法减少训练数据的维度,再将其提供给另一个机器学习算法(例如监督式学习算法)。

机器学习的一般流程

学习数据
选择模型
使用训练数据进行训练,从而使成本函数最小化
应用模型对新示例进行预测(称为推断)

机器学习需要面对的问题

误差度量

训练数据和测试数据

是否可学习

效果评估

参考网站

评论系统未开启,无法评论!