李航统计学习方法第二版-多媒体笔记
简介
郭德纲《统计学习方法》合集版来了! 统计学习方法,经典的机器学习教材。尤其是第二版,写的非常详细到位。但在阅读的过程中,总有一些小细节感觉没读懂。本视频带你一起阅读,争取搞懂其中的每一个细节,迅速走进机器学习的世界。 视频是本人的学习笔记,尽量详尽的介绍每一步推理过程,让大家对李航老师的见解有深入的了解。 唇形匹配效果采用wav2lip模型。
链接
【合集】机器学习系列 郭德纲带你学习《统计学习方法》:https://www.bilibili.com/video/BV1ZP4y1V7pD?share_source=copy_web (opens new window)
第一章 统计学习及监督学习概论
1概论
视频介绍
讲解统计学习的定义、特点、学习对象、目的以及统计学习的方法、用到的基本概念等。重点理解统计学习方法三要素以及统计学习方法的步骤。
1.2统计学习分类
视频介绍
讲解统计学习的基本分类及定义、无监督学习和监督学习的主要区别以及学习中用到的重点概念。重点理解监督学习、无监督学习以及两者的区别、强化学习。
1.2.2模型分类
视频介绍
讲解统计学习方法按模型、按算法、按技巧形成的分类,重点理解概率模型、贝叶斯学习。
1.3统计学习方法三要素
视频介绍
统计学习方法=模型+策略+算法,讲解模型中的各类空间概念、策略中的损失函数及经验风险最小化、结构风险最小化,重点理解经验损失、结构风险最小化。
1.4模型评估与模型选择
视频介绍
讲解训练误差、测试误差的概念 与区别、准确率以及过拟合。重点理解过拟合概念以及训练误差与测试误差对模型选择的影响。
1.5-1.7正则化与交叉验证
视频介绍
讲解正则化、范数、交叉验证方法、泛化误差、生成模型与判别模型,重点理解范数、S折交叉验证。
1.8监督学习应用
视频介绍
监督学习主要应用于分类问题、标注问题和回归问题,重点理解分类问题中的精确率、召回率、调和均值。
第二章 感知机
简介:感知机是一种非常经典的二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机通过学习到的分离超平面将输入空间中的实例划分为两类,为求得该超平面导入了基于误分类的损失函数,利用梯度下降法对损失函数进行最优化。
2.1-2.2感知机模型和策略
视频介绍
简单介绍了感知机模型的概念定义以及感知机的学习策略的公式推导过程。
例2.1详细解析
视频介绍
通过求解学习统计学习方法的例题2.1,详细讲解感知机模型的学习知识。
表2.2详细构造1
视频介绍
通过求解学习统计学习方法的表2.1,详细讲解感知机模型的学习知识以及求解过程。
表2.2详细构造2
视频介绍
通过求解学习统计学习方法的表2.1,详细讲解感知机模型的学习知识以及求解过程。
2.3感知机算法
视频介绍
详细讲解了感知机算法的原始形式的公式推导,以及在求解过程中梯度下降法的应用。
2.3.2算法收敛性
视频介绍
通过数学推导证明了感知机算法的收敛性,即感知机最后一定会学习出一个超平面。
2.3.3感知机对偶形式
视频介绍
详细讲解了感知机原始形式的变形即对偶形式的推导。
第三章 K近邻法
k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。有三个基本要素——k值的选择、距离度量及分类决策规则。
3.1k近邻算法
视频介绍
K近邻算法的主要思想:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。即“近朱者赤近墨者黑”。
例3.1
3.2k近邻模型
视频介绍
k近邻模型由三个基本要素——距离度量、k值的选择和分类决策规则决定,对应于对特征空间的划分。该视频主要介绍三种距离度量欧氏距离、Lp距离(Lpdistance)或Minkowski距离(Minkowski distance)。
图3.2
3.2.3K值的选择
视频介绍
该视频包括K值选择和分类决策规则两部分。K值是一个超参数,一般选用交叉验证法进行验证并选取一个较小值。K值过大过小都会影响模型的构造,例如k值的减小容易发生过拟合,k值的增大会导致学习的近似误差也大。k近邻法中的分类决策规则往往是多数表决,即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。
3.3KD树的构造
视频介绍
kd树构造过程(平衡kd树):类似于数据结构中平衡二叉树的构建
(1)开始:构造根结点,根结点对应于包含T的k维空间的超矩形区域。选择x(1)为坐标轴,以T中所有实例的x(1)坐标的中位数为切分点,将根结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴x(1)垂直的超平面实现。由根结点生成深度为1的左、右子结点:左子结点对应坐标x(1)小于切分点的子区域,右子结点对应于坐标x(1)大于切分点的子区域。将落在切分超平面上的实例点保存在根结点。
(2)重复。对深度为j的结点选择x(l)为切分的坐标轴,l=j%k+1,以该结点的区域中所有实例的x(l)坐标的中位数为切分点,将该结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴x(l)垂直的超平面实现。由该结点生成深度为j+1的左、右子结点:左子结点对应坐标x(l)小于切分点的子区域,右子结点对应坐标x(l)大于切分点的子区域。将落在切分超平面上的实例点保存在该结点
3.3.2搜索KD树
视频介绍
步骤:(1)在kd树中找出包含目标点x的叶结点:从根结点出发,递归地向下访问kd树。若目标点x当前维的坐标小于切分点的坐标,则移动到左子结点,否则移动到右子结点。直到子结点为叶结点为止。
(2)以此叶结点为“当前最近点”。
(3)递归地向上回退,在每个结点进行以下操作:
(a)如果该结点保存的实例点比当前最近点距离目标点更近,则以该实例点为“当前最近点”。
(b)当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一子结点对应的区域是否有更近的点。具体地,检查另一子结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交。如果相交,可能在另一个子结点对应的区域内存在距目标点更近的点,移动到另一个子结点。接着,递归地进行最近邻搜索;如果不相交,向上回退
(4)当回退到根结点时,搜索结束。最后的“当前最近点”即为x的最近邻点。
关键字:距离,超球体,相交
第四章 朴素贝叶斯法
朴素贝叶斯法
视频介绍
简单介绍朴素贝叶斯法,通过训练数据学习联合概率分布,然后求解得到后验概率分布。
4.1模型
视频介绍
朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。“朴素”,即条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
基本概念
视频介绍
简单讲解了条件概率、全概率公式以及贝叶斯公式等概念,为后续详细讲解朴素贝叶斯法提供背景知识。
4.1.2后验概率最大化的含义
视频介绍
通过推导,后验概率最大化可以等价于经验风险最小化,这是朴素贝叶斯法的一个重要原理。
4.2.1极大似然估计
视频介绍
介绍了极大似然估计法,用于学习概率模型。
4.2.贝叶斯估计
视频介绍
介绍了贝叶斯估计法,可以解决极大似然估计得到概率值为0情况下的问题。
第五章决策树
5.1决策树
视频介绍
简单介绍了决策树的概念,通过简单的例子讲解了决策树模型的本质以及其构造过程。
5.1.4决策树的学习
视频介绍
详细讲解了决策树学习的概念和决策树学习的理论过程。
5.2特征选择
视频介绍
通过一组数据简单介绍了特征选择的概念,并且详细讲解了特征选择中所使用的信息增益和熵的概念及数学公式推导。
5.2.2 例2
视频介绍
通过例5.2详细的讲解了特征选择的具体计算过程。
5.3.1 id3算法
视频介绍
结合数据详细介绍了ID3算法构造决策树的过程。
5.3.1 id3算法举例
视频介绍
通过ID3算法详细的讲解了习题5.2中二车回归树的构造过程。
5.3.2 c4.5的生成算法
视频介绍
简单介绍了c4.5算法与ID3算法的异同。
5.4 决策树的剪枝
视频介绍
详细介绍了决策树剪枝的几种不同策略以及决策树剪枝的必要性,并对剪枝的数学公式进行了推导理解。
5.5.1 CART分类树的生成
视频介绍
详细介绍了CART算法的概念和步骤,着重介绍了CART回归树的构造过程及公式推导。
5.5.1 CART回归树的生成
视频介绍
详细介绍了CART分类树的构造过程及公式推导,介绍了基尼指数的概念及计算。
5.5.2 CART剪枝
视频介绍
详细推导了CART算法的剪枝过程和公式推导及理解。
第六章 逻辑斯蒂回归与最大熵模型
6.1逻辑斯蒂回归
视频介绍
简介:简单介绍了逻辑斯蒂回归模型,逻辑斯蒂分布是s型函数。
6.1.2二项逻辑斯蒂回归
视频介绍
简介:简单介绍了逻辑斯蒂回归模型,逻辑斯蒂分布是s型函数。
6.1.3模型参数估计
视频介绍
简介:简单介绍了逻辑斯蒂回归模型的参数估计,以及多项逻辑斯蒂回归模型。
6.2最大熵模型
视频介绍
简介:简单介绍了最大熵原理,以及基于此原理的最大熵模型,并给出了最大熵模型的几何解释。
6.2.2最大熵模型定义
视频介绍
简介:通过引入特征函数及模型与经验分布的期望值,并给出了最大熵模型的定义。
6.2.3最大熵模型的学习
视频介绍
简介:介绍了最大熵模型的学习,将最大熵模型的学习问题从求解带约束的最优化问题转化为无约束的最优化问题,进而转化为易于求解的对偶问题。
6.2.3例6.2
视频介绍
简介:通过求解学习统计学习方法的例题6.2,详细讲解最大熵模型的学习知识。
6.2.4极大似然估计
视频介绍
简介:论证了对偶函数极大化等价于最大熵模型的极大似然估计。
6.3.1改进的迭代尺度法
视频介绍
简介:介绍了改进的迭代尺度法IIS,用于最大熵模型的模型学习。
6.3.2拟牛顿法
视频介绍
简介:讲解了拟牛顿法在最大熵模型学习中的应用。
第七章支持向量机
简介:支持向量机(SVM)是类按照监督学习的方式对输入数据进行二分类的分类器,其通过间隔最大化的学习策略得到对学习样本求解的最大边距超平面,由此对输入实例进行分类。SVM可以通过核方法进行非线性分类,是一种常见的核学习方法。
7.1支持向量机
视频介绍
简单讲解了支持向量机的概念定义,以及支持向量机的分类,介绍了线性可分支持向量机。
7.1.2函数间隔和几何间隔
视频介绍
详细讲解了函数间隔和几何间隔的概念定义,及其两者之间的关联区别。
7.1.2点到直线的距离(点积形式)(2)
视频介绍
通过向量的点积形式,推导出几何间隔的定义。
7.1.3间隔最大化
视频介绍
详细讲解了支持向量机学习策略的基本思想即间隔最大化,通过间隔最大化找到最优超平面。
7.1.3最大间隔分离超平面的存在唯一性(2)
视频介绍
继续讲解支持向量机学习策略的基本思想即间隔最大化,通过间隔最大化找到最优超平面。
7.1.3支持向量和间隔边界(3)
视频介绍
通过数图结合和例题的讲解,详细讲解了什么是支持向量和间隔边界。
7.1.4学习的对偶算法
视频介绍
详细讲解了拉格朗日函数及其对偶性,引出支持向量机的对偶算法。
7.1.4学习的对偶算法(2)
视频介绍
继续讲解拉格朗日函数及其对偶性,以及支持向量机的对偶算法。
7.1.4学习的对偶算法(3)
视频介绍
继续讲解拉格朗日函数及其对偶性,以及支持向量机的对偶算法。
7.2.1线性支持向量机
视频介绍
详细讲解了线性支持向量机的概念定义,以及在软间隔最大化的学习策略下的公式推导。
7.2.3支持向量
视频介绍
通过图形结合的形式详细讲解了支持向量的概念以及实际意义。
7.2.4合页损失函数
视频介绍
简单讲解了软间隔最大化的另外一种表示形式,即最小化合页损失函数。
7.3.1核技巧(1)
视频介绍
简单讲解了核技巧在非线性分类问题中的应用,即通过核技巧的使用可以解决非线性分类问题。
7.3.1核函数的定义(2)
7.3.1核技巧在支持向量机中的应用(3)
视频介绍
简单讲解了核技巧如何应用于支持向量机,以便求解问题。
7.3.2正定核
视频介绍
详细讲解了正定核的概念定义以及公式推导。
7.3.2正定核的充要条件(2)
7.3.3常用核函数
7.3.3常用核函数(2)
视频介绍
详细讲解了字符串核函数的概念定义以及公式推导,并讲解了相关的例题。
7.3.4非线性支持向量机
视频介绍
对之前的内容做了回顾,简单介绍了非线性支持向量机学习算法的具体过程。
7.4 SMO算法
视频介绍
简单讲解了支持向量机的求解实现问题,揭示了传统梯度下降法的局限性,引出来序列最小最优化方法。
7.4.1两个变量的二次规划求解方法
7.4.1两个变量的二次规划求解方法(2)
视频介绍
继续通过数学公式的推导来探讨两个变量的二次规划求解方法。
7.4.2变量的选择方法
视频介绍
本节总结了下SMO算法中两个变量的选择原则,回顾应用SMO求解支持向量机的流程。
第八章 提升方法
8.1.1提升方法adaboost算法
视频介绍
提升方法思想:“三个臭皮匠赛过诸葛亮”,即在分类问题中,提升算法从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器。关键是改变训练数据的权值分布(概率分布)
关键词:弱分类器,强分类器
8.1.2adaoost算法
视频介绍
基本步骤:(1)假设训练数据集具有均匀的权值分布,即每个训练样本在基本分类器的学习中作用相同,这一假设保证第1步能够在原始数据上学习基本分类器G1(x)。
(2)AdaBoost反复学习基本分类器,在每一轮m=1,2,…,M顺次地执行下列操作:
(a)使用当前分布Dm加权的训练数据集,学习基本分类器Gm(x)。
(b)计算基本分类器Gm(x)在加权训练数据集上的分类误差率
(c)计算基本分类器Gm(x)的系数am
(d)更新训练数据的权值分布为下一轮作准备。
(3)线性组合f(x)实现M个基本分类器的加权表决。
8.1.3adaboost例子
8.2adaboost算法的训练误差分析
视频介绍
AdaBoost最基本的性质是它能在学习过程中不断减少训练误差,即在训练数据集上的分类误差率。该视频分别对Adaboost的训练误差界、二类分类问题Adaboost的训练误差界、训练误差在指定条件下呈指数速率下降进行分析验证。
8.3.1adaboost算法的解释
视频介绍
Adboost可认为是加法模型、损失函数为指数函数、学习算法为前向分步算法时的二类分类学习方法。该视频简单介绍了前向分步算法的学习步骤。
8.3.2前向分步算法与adaboost
视频介绍
AdaBoost算法是前向分歩加法算法的特例,该视频主要利用后推方法证明前向分步算法的损失函数是指数损失函数,即证明前向分步算法得到的系数am和分类器Gm(x)使fm(x)在训练数据集T上的指数损失最小。
8.4.1-2提升树
视频介绍
提升树是以分类树或回归树为基本分类器的提升方法。即对分类问题决策树是二叉分类树,对回归问题决策树是二叉回归树。该视频针对不同问题的提升树学习方法,介绍了不同的损失函数,例如用平方误差损失函数的回归问题,用指数损失函数的分类问题,以及用一般损失函数的一般决策问题。
8.4.3梯度提升树
视频介绍
梯度提升树优点:利用梯度下降法优化损失函数,即用损失函数的负梯度在当前模型的值,作为回归问题提升树算法中的残差的近似值,拟合回归树。
算法第1步初始化,估计使损失函数极小化的常数值,它是只有一个根结点的树。第2(a)步计算损失函数的负梯度在当前模型的值,将它作为残差的估计。对于平方损失函数,它就是通常所说的残差;对于一般损失函数,它就是残差的近似值。第2(b)步估计回归树叶结点区域,以拟合残差的近似值。第2(c)步利用线性搜索估计叶结点区域的值,使损失函数极小化。第2(d)步更新回归树。第3步得到输出的最终模型(X)。
第九章 EM算法
9.1.1EM算法的引入
视频介绍
简单介绍了EM算法的概念,通过简单的例子介绍了EM算法的引入原因,并讲解了三硬币模型应用EM算法的求解过程。
9.1.2EM算法的导出
9.2EM算法的收敛性
视频介绍
详细推到了EM算法代替极大似然估计求解的收敛性。
9.3EM算法在高斯混合模型学习中的应用
视频介绍
详细介绍了高斯混合模型相关问题使用EM算法的求解过程并对公式进行了详细推导。
9.4EM算法的推广
视频介绍
简单总结了EM算法的概念,并引出了EM算法的推广—F函数,对F函数的概念、过程及推导作了详细的讲解。