首页 > 编程学习 > 第一章 绪论

第一章 绪论

发布时间:2022/11/18 9:53:42

1.1 引言

机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型"的算法,即学习算法
有了学习算法,它就能基于我们提供的经验数据产生模型。在面对一个新情况时,模型会给我们提供相应的判断。

1.2 基本术语

数据集就是一批数据。其中每条记录是关于一个事件或对象的描述,称为一个样本示例。一个示例也可以称为特征向量
每个示例由d个属性描述,d称为样本的维数
从数据中学得模型的过程称为“学习”或“训练”,通过执行学习算法来完成。
训练过程中使用的数据称为“训练数据”,其中的每个样本称为“训练样本”,训练样本组成“训练集”。
学得模型对应了关于数据的某种潜在的规律,因此亦称为“假设”。这种潜在规律自身,则称为真相真实,学习过程就是为了找出或逼近真相。
每个训练样本都需要有一个结果信息用来表示该样本的好或坏,称为“标记”。所有的标记的集合亦称为标记空间输出空间。有了标记信息的示例称为“样例”。
若我们欲预测的是离散值,例如好瓜,坏瓜。此类学习任务称为“分类”。
若我们欲预测的是连续值,例如西瓜的成熟度0.95,0.37。此类学习任务称为“回归”。
我们还可以对西瓜预测做“聚类”,即对训练集中的西瓜分成若干组,每组称为一个“”。例如浅色瓜,深色瓜,本地瓜,外地瓜。
根据训练数据是否拥有标记信息,学习任务大致划分为两大类:监督学习无监督学习。分类和回归是前者的代表,而聚类则是后者的代表。
机器学习的目标是使学得的模型能够很好地适用于新样本,而不是仅仅在训练样本上工作的很好。学得模型适用于新样本的能力,称为”泛化“能力。

1.3 假设空间

我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集”匹配“的假设,即能够将训练集中的瓜判断正确的假设,假设的表示一旦确定,假设空间及其规模大小就确定了。
需注意的是,假设空间往往很大,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的”假设空间“,我们称之为”版本空间“。

1.4 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为”归纳偏好“,或简称为”偏好“。
奥卡姆剃刀是一种常用的、自然科学研究中最基本的准则,即”若有多个假设与观察一致,则选最简单的那个“。
NFL定理:(No Free Lunch Theorem没有免费的午餐定理)无论一种算法多聪明,另一种算法多笨拙,它们的期望性竟然完全相同!
NFL理论有一个前提,所有问题出现的机会相同,所有问题同等重要。很多时候我们只需要关注一个问题找到一个具体的解决方案。所以,NFL理论最重要的寓意,是让我们认识到脱离实际问题空泛的谈论什么算法更好毫无意义。

Copyright © 2010-2022 dgrt.cn 版权所有 |关于我们| 联系方式