机器学习课堂笔记

课程基本信息

教师:景丽萍

教材:西瓜书by周志华

分数构成

考勤和课堂 10%
上机实践8次(带电脑) 60%
大作业、代码及报告(10选2)演讲 30%

助教、答疑时间地点等见《本科机器学习-ch00-课程简介.pdf》第六页

课程安排

第一节课到此结束

绪论

人工智能与机器学习

人工智能 > 机器学习 > 深度学习

机器学习定义

机器学习粗略定义

机器学习可以粗略地理解为:让机器根据数据,找到我们想要的一个函数的能力。

机器学习更广泛的定义

  1. 最常用定义

    “计算机系统能够利用经验提高自身的性能”

  2. 可操作定义

    “机器学习本质是一个基于经验数据的函数估计问题”

  3. 统计学定义

    “提取重要模式、趋势,并理解数据, 即从数据中学习

机器学习,从数据中自动地提取知识

机器学习主要框架

如何找到我们想要的那个函数呢?三步走:

有多种scenario(方案):

  • supervised learning
  • semi-supervised learning
  • transfer learning
  • unsupervised learning
  • reinforcement learning
  • structured learning

回归问题与分类问题

回归(regression)

注:scalar n.数量,标量。

上图中,f预测明天的PM2.5的值,这个值是连续的。预测一个数,是回归问题;预测一个等级,是分类问题。

分类(classification)

图像识别和AlphaGO也属于分类问题。图像识别中,每个物种是一个class;AlphaGO决定下一步棋该下在哪个位置,也是棋盘大小种class。

无监督学习

生成模型(PixelRNN、VAE、GAN)属于无监督学习。但是它是如何保证生成图像的质量呢????????????????????????????????我不知道啊!!!!!!!!!!!!!!

结构化学习

structured learning:根据不同的输入,做不同的任务,给出不同的输出。


【自己的补充】

早期处理文本,是用新华字典等建立一个词库(桶),然后统计一个文档里出现了什么词,出现了几次(桶排)。即从无结构化数据,转化为有结构化数据。


强化学习

难点在于怎么评价某个决策的好坏。


【自己的补充】

弱监督学习

弱监督学习(weakly supervised learning)适用于:数据有噪声,有点用但是不能完全信任。

弱监督学习可以分为三种典型的类型:

  • 不完全监督(Incomplete supervision)
  • 不确切监督(Inexact supervision)
  • 不精确监督(Inaccurate supervision)

不完全监督

是指,训练数据中只有一部分数据被给了标签,有一些数据是没有标签的。

  • 应对方法1:主动学习(active learning),主动输出最有价值的未标记实例,让人工去标记。

  • 应对方法2:半监督学习(semi-supervised learning)

不确切监督

是指,训练数据只给出了粗粒度标签。我们可以把输入想象成一个包,这个包里面有一些示例,我们只知道这个包的标签,Y或N,但是我们不知道每个示例的标签。

  • 应对方法:多实例学习(multi-instance learning)

不精确监督

是指,给出的标签不总是正确的,比如本来应该是Y的标签被错误标记成了N。

  • 应对方法:带噪学习(Learning with label noise):删除或修改可疑点(可疑点是模型认为可能标错了的点)

这三种,在现实中常常一起出现

【参考资料】:

  1. https://zhuanlan.zhihu.com/p/81404885

西瓜书补充

基本术语 — 泛化能力

机器学习的目标是使得学到的模型能很好的适用于“新样本”,而不仅仅是训练集合。我们称模型适用于新样本的能 力为泛化(generalization)能力。 通常假设样本空间中的样本服从一个未知分布𝒟,样本从这 个分布中独立获得,即“独立同分布”(i.i.d)(independently identical distribution)。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型。


【自己的补充】

独立同分布

独立同分布(iid,independently identically distribution)

这个假设非常理想,实际上,数据往往不满足iid。比如:不同属性之间并不独立,健康人的脉搏和体温都在正常范围。


归纳偏好

奥卡姆剃刀

“奥卡姆剃刀”是一种常用的、自然科学研究中最基 本的原则,即“若有多个假设与观察一致,选最简单的那个”。

没有免费的午餐定理(No Free Lunch)

见西瓜书P8-9。可以证明:

对于二分类问题,所有可能f按均匀分布,则可以推出总误差与学习算法无关!也就是说,胡乱猜和很精确复杂的模型,它的误差期望是一样的。

但是!实际问题中,所有问题出现的可能性并不相同,不满足均匀分布。真正值得我们关注的,也只是其中的一小部分问题。脱离具体问题,空谈“什么算法更好”毫无意义。

统计学习、连接主义与符号主义

符号主义学习

  • 决策树:以信息论为基础,最小化信息熵,模拟了人类对概念进行判定的树形流程
  • 基于逻辑的学习:使用一阶逻辑进行知识表示,通过修改扩充逻辑表达式对数据进行归纳

连接主义学习(基于神经网络)

  • 1983年,J.J. Hopfield利用神经网络成功求解“流动推销员问题”
  • 1986年,D.E. Rumelhart等人重新发明了著名的BP算法
  • 深度学习:数据大,计算能力强


【一些自己的补充】

符号主义与连接主义

  • “符号主义”(Symbolicism),又称逻辑主义、计算机学派,主张用公理和逻辑体系搭建一套人工智能系统。
  • 符号主义早期不是数据驱动的,它不需要训练,而是用大量的专家人力,去指定规则、公理等。现在的知识图谱,则会做知识蒸馏,应用了一些自适应的方法。这部分是数据驱动的。
  • “连接主义”(Connectionism),又叫仿生学派,主张模仿人类的神经元,用神经网络的连接机制实现人工智能。

统计学习

  • 支持向量机(SVM)及核方法


【老师上课补充】

推荐算法

推荐算法要考虑多样性推荐,人的爱好是多元的。这也是推荐算法的难点。要考虑不重复,学生上完机器学习,mooc就不该推荐机器学习课了。


第二节课到此结束

SVM的kernel参数

SVM的kernel参数中linear, poly, rbf, sigmoid 这几个参数都是什么意思呢?

linear

线性核函数,是在数据线性可分的情况下使用的,运算速度快,效果好。不足在于它不能处理线性不可分的数据。

image.png

poly

多项式核函数,多项式核函数可以将数据从低维空间映射到高维空间,但参数比较多,计算量大。

image.png

rbf(default)

高斯核函数(默认),高斯核函数同样可以将样本映射到高维空间,但相比于多项式核函数来说所需的参数比较少,通常性能不错,所以是默认使用的核函数。

image.png

sigmoid

sigmoid 核函数,sigmoid 经常用在神经网络的映射中。因此当选用 sigmoid 核函数时,SVM 实现的是多层神经网络。

image.png

可以看出,在对同一个测试集进行分类时,采用不同的核函数会有不同的效果。且分界面的形状与核函数本身的形状相似。如应用sigmoid核函数时,显示明显的S形;应用rbf核函数时,显示等高线般的分界面。

对偶问题

要理解对偶问题,先看拉格朗日乘子法

再看对偶问题

KKT的证明不会

打赏
  • 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!
  • © 2023 glisses
  • PV: UV:

请我喝杯咖啡吧~

支付宝
微信