# 李航统计学习方法第二版-多媒体笔记

# 简介

郭德纲《统计学习方法》合集版来了！统计学习方法，经典的机器学习教材。尤其是第二版，写的非常详细到位。但在阅读的过程中，总有一些小细节感觉没读懂。本视频带你一起阅读，争取搞懂其中的每一个细节，迅速走进机器学习的世界。视频是本人的学习笔记，尽量详尽的介绍每一步推理过程，让大家对李航老师的见解有深入的了解。唇形匹配效果采用wav2lip模型。

# 链接

【合集】机器学习系列郭德纲带你学习《统计学习方法》：https://www.bilibili.com/video/BV1ZP4y1V7pD?share_source=copy_web (opens new window)

# 第一章统计学习及监督学习概论

# 1概论

视频介绍

讲解统计学习的定义、特点、学习对象、目的以及统计学习的方法、用到的基本概念等。重点理解统计学习方法三要素以及统计学习方法的步骤。

视频播放

本页观看

# 1.2统计学习分类

视频介绍

讲解统计学习的基本分类及定义、无监督学习和监督学习的主要区别以及学习中用到的重点概念。重点理解监督学习、无监督学习以及两者的区别、强化学习。

视频播放

本页观看

# 1.2.2模型分类

视频介绍

讲解统计学习方法按模型、按算法、按技巧形成的分类，重点理解概率模型、贝叶斯学习。

视频播放

本页观看

# 1.3统计学习方法三要素

视频介绍

统计学习方法=模型+策略+算法，讲解模型中的各类空间概念、策略中的损失函数及经验风险最小化、结构风险最小化，重点理解经验损失、结构风险最小化。

视频播放

本页观看

# 1.4模型评估与模型选择

视频介绍

讲解训练误差、测试误差的概念与区别、准确率以及过拟合。重点理解过拟合概念以及训练误差与测试误差对模型选择的影响。

视频播放

本页观看

# 1.5-1.7正则化与交叉验证

视频介绍

讲解正则化、范数、交叉验证方法、泛化误差、生成模型与判别模型，重点理解范数、S折交叉验证。

视频播放

本页观看

# 1.8监督学习应用

视频介绍

监督学习主要应用于分类问题、标注问题和回归问题，重点理解分类问题中的精确率、召回率、调和均值。

视频播放

本页观看

# 第二章感知机

简介：感知机是一种非常经典的二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别（取+1和-1）。感知机通过学习到的分离超平面将输入空间中的实例划分为两类，为求得该超平面导入了基于误分类的损失函数，利用梯度下降法对损失函数进行最优化。

# 2.1-2.2感知机模型和策略

视频介绍

简单介绍了感知机模型的概念定义以及感知机的学习策略的公式推导过程。

视频播放

本页观看

# 例2.1详细解析

视频介绍

通过求解学习统计学习方法的例题2.1，详细讲解感知机模型的学习知识。

视频播放

本页观看

# 表2.2详细构造1

视频介绍

通过求解学习统计学习方法的表2.1，详细讲解感知机模型的学习知识以及求解过程。

视频播放

本页观看

# 表2.2详细构造2

视频介绍

通过求解学习统计学习方法的表2.1，详细讲解感知机模型的学习知识以及求解过程。

视频播放

本页观看

# 2.3感知机算法

视频介绍

详细讲解了感知机算法的原始形式的公式推导，以及在求解过程中梯度下降法的应用。

视频播放

本页观看

# 2.3.2算法收敛性

视频介绍

通过数学推导证明了感知机算法的收敛性，即感知机最后一定会学习出一个超平面。

视频播放

本页观看

# 2.3.3感知机对偶形式

视频介绍

详细讲解了感知机原始形式的变形即对偶形式的推导。

视频播放

本页观看

# 第三章 K近邻法

k近邻法（k-nearest neighbor，k-NN）是一种基本分类与回归方法。有三个基本要素——k值的选择、距离度量及分类决策规则。

# 3.1k近邻算法

视频介绍

K近邻算法的主要思想：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类。即“近朱者赤近墨者黑”。

视频播放

本页观看

# 例3.1

视频介绍

例3.1

视频播放

本页观看

# 3.2k近邻模型

视频介绍

k近邻模型由三个基本要素——距离度量、k值的选择和分类决策规则决定，对应于对特征空间的划分。该视频主要介绍三种距离度量欧氏距离、Lp距离（Lpdistance）或Minkowski距离（Minkowski distance）。

视频播放

本页观看

# 图3.2

视频介绍

图3.2

视频播放

本页观看

# 3.2.3K值的选择

视频介绍

该视频包括K值选择和分类决策规则两部分。K值是一个超参数，一般选用交叉验证法进行验证并选取一个较小值。K值过大过小都会影响模型的构造，例如k值的减小容易发生过拟合，k值的增大会导致学习的近似误差也大。k近邻法中的分类决策规则往往是多数表决，即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。

视频播放

本页观看

# 3.3KD树的构造

视频介绍

kd树构造过程(平衡kd树)：类似于数据结构中平衡二叉树的构建 (1)开始：构造根结点，根结点对应于包含T的k维空间的超矩形区域。选择x(1)为坐标轴，以T中所有实例的x(1)坐标的中位数为切分点，将根结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴x(1)垂直的超平面实现。由根结点生成深度为1的左、右子结点：左子结点对应坐标x(1)小于切分点的子区域，右子结点对应于坐标x(1)大于切分点的子区域。将落在切分超平面上的实例点保存在根结点。 (2)重复。对深度为j的结点选择x(l)为切分的坐标轴，l=j%k+1，以该结点的区域中所有实例的x(l)坐标的中位数为切分点，将该结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴x(l)垂直的超平面实现。由该结点生成深度为j+1的左、右子结点：左子结点对应坐标x(l)小于切分点的子区域，右子结点对应坐标x(l)大于切分点的子区域。将落在切分超平面上的实例点保存在该结点

视频播放

本页观看

# 3.3.2搜索KD树

视频介绍

步骤：（1）在kd树中找出包含目标点x的叶结点：从根结点出发，递归地向下访问kd树。若目标点x当前维的坐标小于切分点的坐标，则移动到左子结点，否则移动到右子结点。直到子结点为叶结点为止。（2）以此叶结点为“当前最近点”。（3）递归地向上回退，在每个结点进行以下操作：（a）如果该结点保存的实例点比当前最近点距离目标点更近，则以该实例点为“当前最近点”。（b）当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一子结点对应的区域是否有更近的点。具体地，检查另一子结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交。如果相交，可能在另一个子结点对应的区域内存在距目标点更近的点，移动到另一个子结点。接着，递归地进行最近邻搜索；如果不相交，向上回退（4）当回退到根结点时，搜索结束。最后的“当前最近点”即为x的最近邻点。关键字：距离，超球体，相交

视频播放

本页观看

# 第四章朴素贝叶斯法

# 朴素贝叶斯法

视频介绍

简单介绍朴素贝叶斯法，通过训练数据学习联合概率分布，然后求解得到后验概率分布。

视频播放

本页观看

# 4.1模型

视频介绍

朴素贝叶斯法实际上学习到生成数据的机制，所以属于生成模型。“朴素”，即条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率。

视频播放

本页观看

# 基本概念

视频介绍

简单讲解了条件概率、全概率公式以及贝叶斯公式等概念，为后续详细讲解朴素贝叶斯法提供背景知识。

视频播放

本页观看

# 4.1.2后验概率最大化的含义

视频介绍

通过推导，后验概率最大化可以等价于经验风险最小化，这是朴素贝叶斯法的一个重要原理。

视频播放

本页观看

# 4.2.1极大似然估计

视频介绍

介绍了极大似然估计法，用于学习概率模型。

视频播放

本页观看

# 4.2.贝叶斯估计

视频介绍

介绍了贝叶斯估计法，可以解决极大似然估计得到概率值为0情况下的问题。

视频播放

本页观看

# 第五章决策树

# 5.1决策树

视频介绍

简单介绍了决策树的概念，通过简单的例子讲解了决策树模型的本质以及其构造过程。

视频播放

本页观看

# 5.1.4决策树的学习

视频介绍

详细讲解了决策树学习的概念和决策树学习的理论过程。

视频播放

本页观看

# 5.2特征选择

视频介绍

通过一组数据简单介绍了特征选择的概念，并且详细讲解了特征选择中所使用的信息增益和熵的概念及数学公式推导。

视频播放

本页观看

# 5.2.2 例2

视频介绍

通过例5.2详细的讲解了特征选择的具体计算过程。

视频播放

本页观看

# 5.3.1 id3算法

视频介绍

结合数据详细介绍了ID3算法构造决策树的过程。

视频播放

本页观看

# 5.3.1 id3算法举例

视频介绍

通过ID3算法详细的讲解了习题5.2中二车回归树的构造过程。

视频播放

本页观看

# 5.3.2 c4.5的生成算法

视频介绍

简单介绍了c4.5算法与ID3算法的异同。

视频播放

本页观看

# 5.4 决策树的剪枝

视频介绍

详细介绍了决策树剪枝的几种不同策略以及决策树剪枝的必要性，并对剪枝的数学公式进行了推导理解。

视频播放

本页观看

# 5.5.1 CART分类树的生成

视频介绍

详细介绍了CART算法的概念和步骤，着重介绍了CART回归树的构造过程及公式推导。

视频播放

本页观看

# 5.5.1 CART回归树的生成

视频介绍

详细介绍了CART分类树的构造过程及公式推导，介绍了基尼指数的概念及计算。

视频播放

本页观看

# 5.5.2 CART剪枝

视频介绍

详细推导了CART算法的剪枝过程和公式推导及理解。

视频播放

本页观看

# 第六章逻辑斯蒂回归与最大熵模型

# 6.1逻辑斯蒂回归

视频介绍

简介：简单介绍了逻辑斯蒂回归模型，逻辑斯蒂分布是s型函数。

视频播放

本页观看

# 6.1.2二项逻辑斯蒂回归

视频介绍

简介：简单介绍了逻辑斯蒂回归模型，逻辑斯蒂分布是s型函数。

视频播放

本页观看

# 6.1.3模型参数估计

视频介绍

简介：简单介绍了逻辑斯蒂回归模型的参数估计，以及多项逻辑斯蒂回归模型。

视频播放

本页观看

# 6.2最大熵模型

视频介绍

简介：简单介绍了最大熵原理，以及基于此原理的最大熵模型，并给出了最大熵模型的几何解释。

视频播放

本页观看

# 6.2.2最大熵模型定义

视频介绍

简介：通过引入特征函数及模型与经验分布的期望值，并给出了最大熵模型的定义。

视频播放

本页观看

# 6.2.3最大熵模型的学习

视频介绍

简介：介绍了最大熵模型的学习，将最大熵模型的学习问题从求解带约束的最优化问题转化为无约束的最优化问题，进而转化为易于求解的对偶问题。

视频播放

本页观看

# 6.2.3例6.2

视频介绍

简介：通过求解学习统计学习方法的例题6.2，详细讲解最大熵模型的学习知识。

视频播放

本页观看

# 6.2.4极大似然估计

视频介绍

简介：论证了对偶函数极大化等价于最大熵模型的极大似然估计。

视频播放

本页观看

# 6.3.1改进的迭代尺度法

视频介绍

简介：介绍了改进的迭代尺度法IIS，用于最大熵模型的模型学习。

视频播放

本页观看

# 6.3.2拟牛顿法

视频介绍

简介：讲解了拟牛顿法在最大熵模型学习中的应用。

视频播放

本页观看

# 第七章支持向量机

简介：支持向量机（SVM）是类按照监督学习的方式对输入数据进行二分类的分类器，其通过间隔最大化的学习策略得到对学习样本求解的最大边距超平面，由此对输入实例进行分类。SVM可以通过核方法进行非线性分类，是一种常见的核学习方法。

# 7.1支持向量机

视频介绍

简单讲解了支持向量机的概念定义，以及支持向量机的分类，介绍了线性可分支持向量机。

视频播放

本页观看

# 7.1.2函数间隔和几何间隔

视频介绍

详细讲解了函数间隔和几何间隔的概念定义，及其两者之间的关联区别。

视频播放

本页观看

# 7.1.2点到直线的距离(点积形式)(2)

视频介绍

通过向量的点积形式，推导出几何间隔的定义。

视频播放

本页观看

# 7.1.3间隔最大化

视频介绍

详细讲解了支持向量机学习策略的基本思想即间隔最大化，通过间隔最大化找到最优超平面。

视频播放

本页观看

# 7.1.3最大间隔分离超平面的存在唯一性(2)

视频介绍

继续讲解支持向量机学习策略的基本思想即间隔最大化，通过间隔最大化找到最优超平面。

视频播放

本页观看

# 7.1.3支持向量和间隔边界(3)

视频介绍

通过数图结合和例题的讲解，详细讲解了什么是支持向量和间隔边界。

视频播放

本页观看

# 7.1.4学习的对偶算法

视频介绍

详细讲解了拉格朗日函数及其对偶性，引出支持向量机的对偶算法。

视频播放

本页观看

# 7.1.4学习的对偶算法(2)

视频介绍

继续讲解拉格朗日函数及其对偶性，以及支持向量机的对偶算法。

视频播放

本页观看

# 7.1.4学习的对偶算法(3)

视频介绍

继续讲解拉格朗日函数及其对偶性，以及支持向量机的对偶算法。

视频播放

本页观看

# 7.2.1线性支持向量机

视频介绍

详细讲解了线性支持向量机的概念定义，以及在软间隔最大化的学习策略下的公式推导。

视频播放

本页观看

# 7.2.3支持向量

视频介绍

通过图形结合的形式详细讲解了支持向量的概念以及实际意义。

视频播放

本页观看

# 7.2.4合页损失函数

视频介绍

简单讲解了软间隔最大化的另外一种表示形式，即最小化合页损失函数。

视频播放

本页观看

# 7.3.1核技巧(1)

视频介绍

简单讲解了核技巧在非线性分类问题中的应用，即通过核技巧的使用可以解决非线性分类问题。

视频播放

本页观看

# 7.3.1核函数的定义(2)

视频介绍

简单讲解了核函数的定义及其作用。

视频播放

本页观看

# 7.3.1核技巧在支持向量机中的应用(3)

视频介绍

简单讲解了核技巧如何应用于支持向量机，以便求解问题。

视频播放

本页观看

# 7.3.2正定核

视频介绍

详细讲解了正定核的概念定义以及公式推导。

视频播放

本页观看

# 7.3.2正定核的充要条件(2)

视频介绍

通过数学公式，推导出正定核的充要条件

视频播放

本页观看

# 7.3.3常用核函数

视频介绍

简单介绍了多项式核函数和高斯核函数。

视频播放

本页观看

# 7.3.3常用核函数(2)

视频介绍

详细讲解了字符串核函数的概念定义以及公式推导，并讲解了相关的例题。

视频播放

本页观看

# 7.3.4非线性支持向量机

视频介绍

对之前的内容做了回顾，简单介绍了非线性支持向量机学习算法的具体过程。

视频播放

本页观看

# 7.4 SMO算法

视频介绍

简单讲解了支持向量机的求解实现问题，揭示了传统梯度下降法的局限性，引出来序列最小最优化方法。

视频播放

本页观看

# 7.4.1两个变量的二次规划求解方法

视频介绍

详细讲解了两个变量的SMO求解方法。

视频播放

本页观看

# 7.4.1两个变量的二次规划求解方法(2)

视频介绍

继续通过数学公式的推导来探讨两个变量的二次规划求解方法。

视频播放

本页观看

# 7.4.2变量的选择方法

视频介绍

本节总结了下SMO算法中两个变量的选择原则，回顾应用SMO求解支持向量机的流程。

视频播放

本页观看

# 第八章提升方法

# 8.1.1提升方法adaboost算法

视频介绍

提升方法思想：“三个臭皮匠赛过诸葛亮”，即在分类问题中，提升算法从弱学习算法出发，反复学习，得到一系列弱分类器（又称为基本分类器），然后组合这些弱分类器，构成一个强分类器。关键是改变训练数据的权值分布（概率分布）关键词：弱分类器，强分类器

视频播放

本页观看

# 8.1.2adaoost算法

视频介绍

基本步骤：（1）假设训练数据集具有均匀的权值分布，即每个训练样本在基本分类器的学习中作用相同，这一假设保证第1步能够在原始数据上学习基本分类器G1(x)。（2）AdaBoost反复学习基本分类器，在每一轮m＝1,2,…,M顺次地执行下列操作：（a）使用当前分布Dm加权的训练数据集，学习基本分类器Gm(x)。（b）计算基本分类器Gm(x)在加权训练数据集上的分类误差率（c）计算基本分类器Gm(x)的系数am （d）更新训练数据的权值分布为下一轮作准备。（3）线性组合f(x)实现M个基本分类器的加权表决。

视频播放

本页观看

# 8.1.3adaboost例子

视频介绍

adaboost例子

视频播放

本页观看

# 8.2adaboost算法的训练误差分析

视频介绍

AdaBoost最基本的性质是它能在学习过程中不断减少训练误差，即在训练数据集上的分类误差率。该视频分别对Adaboost的训练误差界、二类分类问题Adaboost的训练误差界、训练误差在指定条件下呈指数速率下降进行分析验证。

视频播放

本页观看

# 8.3.1adaboost算法的解释

视频介绍

Adboost可认为是加法模型、损失函数为指数函数、学习算法为前向分步算法时的二类分类学习方法。该视频简单介绍了前向分步算法的学习步骤。

视频播放

本页观看

# 8.3.2前向分步算法与adaboost

视频介绍

AdaBoost算法是前向分歩加法算法的特例，该视频主要利用后推方法证明前向分步算法的损失函数是指数损失函数，即证明前向分步算法得到的系数am和分类器Gm(x)使fm(x)在训练数据集T上的指数损失最小。

视频播放

本页观看

# 8.4.1-2提升树

视频介绍

提升树是以分类树或回归树为基本分类器的提升方法。即对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。该视频针对不同问题的提升树学习方法，介绍了不同的损失函数，例如用平方误差损失函数的回归问题，用指数损失函数的分类问题，以及用一般损失函数的一般决策问题。

视频播放

本页观看

# 8.4.3梯度提升树

视频介绍

梯度提升树优点：利用梯度下降法优化损失函数，即用损失函数的负梯度在当前模型的值，作为回归问题提升树算法中的残差的近似值，拟合回归树。算法第1步初始化，估计使损失函数极小化的常数值，它是只有一个根结点的树。第2(a)步计算损失函数的负梯度在当前模型的值，将它作为残差的估计。对于平方损失函数，它就是通常所说的残差；对于一般损失函数，它就是残差的近似值。第2(b)步估计回归树叶结点区域，以拟合残差的近似值。第2(c)步利用线性搜索估计叶结点区域的值，使损失函数极小化。第2(d)步更新回归树。第3步得到输出的最终模型(X)。

视频播放

本页观看

# 第九章 EM算法

# 9.1.1EM算法的引入

视频介绍

简单介绍了EM算法的概念，通过简单的例子介绍了EM算法的引入原因，并讲解了三硬币模型应用EM算法的求解过程。

视频播放

本页观看

# 9.1.2EM算法的导出

视频介绍

详细讲解了EM算法的公式推导过程。

视频播放

本页观看

# 9.2EM算法的收敛性

视频介绍

详细推到了EM算法代替极大似然估计求解的收敛性。

视频播放

本页观看

# 9.3EM算法在高斯混合模型学习中的应用

视频介绍

详细介绍了高斯混合模型相关问题使用EM算法的求解过程并对公式进行了详细推导。

视频播放

本页观看

# 9.4EM算法的推广

视频介绍

简单总结了EM算法的概念，并引出了EM算法的推广—F函数，对F函数的概念、过程及推导作了详细的讲解。

视频播放

本页观看

# 李航统计学习方法第二版-多媒体笔记

# 简介

# 链接

# 第一章 统计学习及监督学习概论

# 1概论

# 1.2统计学习分类

# 1.2.2模型分类

# 1.3统计学习方法三要素

# 1.4模型评估与模型选择

# 1.5-1.7正则化与交叉验证

# 1.8监督学习应用

# 第二章 感知机

# 2.1-2.2感知机模型和策略

# 例2.1详细解析

# 表2.2详细构造1

# 表2.2详细构造2

# 2.3感知机算法

# 2.3.2算法收敛性

# 2.3.3感知机对偶形式

# 第三章 K近邻法

# 3.1k近邻算法

# 例3.1

# 3.2k近邻模型

# 图3.2

# 3.2.3K值的选择

# 3.3KD树的构造

# 3.3.2搜索KD树

# 第四章 朴素贝叶斯法

# 朴素贝叶斯法

# 4.1模型

# 基本概念

# 4.1.2后验概率最大化的含义

# 4.2.1极大似然估计

# 4.2.贝叶斯估计

# 第五章决策树

# 5.1决策树

# 5.1.4决策树的学习

# 5.2特征选择

# 5.2.2 例2

# 5.3.1 id3算法

# 5.3.1 id3算法举例

# 5.3.2 c4.5的生成算法

# 5.4 决策树的剪枝

# 5.5.1 CART分类树的生成

# 5.5.1 CART回归树的生成

# 5.5.2 CART剪枝

# 第六章 逻辑斯蒂回归与最大熵模型

# 6.1逻辑斯蒂回归

# 6.1.2二项逻辑斯蒂回归

# 6.1.3模型参数估计

# 6.2最大熵模型

# 6.2.2最大熵模型定义

# 6.2.3最大熵模型的学习

# 6.2.3例6.2

# 6.2.4极大似然估计

# 6.3.1改进的迭代尺度法

# 6.3.2拟牛顿法

# 第七章支持向量机

# 7.1支持向量机

# 7.1.2函数间隔和几何间隔

# 7.1.2点到直线的距离(点积形式)(2)

# 7.1.3间隔最大化

# 7.1.3最大间隔分离超平面的存在唯一性(2)

# 7.1.3支持向量和间隔边界(3)

# 7.1.4学习的对偶算法

# 7.1.4学习的对偶算法(2)

# 7.1.4学习的对偶算法(3)

# 7.2.1线性支持向量机

# 7.2.3支持向量

# 7.2.4合页损失函数

# 7.3.1核技巧(1)

# 7.3.1核函数的定义(2)

# 7.3.1核技巧在支持向量机中的应用(3)

# 7.3.2正定核

# 7.3.2正定核的充要条件(2)

# 7.3.3常用核函数

# 7.3.3常用核函数(2)

# 7.3.4非线性支持向量机

# 7.4 SMO算法

# 7.4.1两个变量的二次规划求解方法

# 第一章统计学习及监督学习概论

# 第二章感知机

# 第四章朴素贝叶斯法

# 第六章逻辑斯蒂回归与最大熵模型

# 第八章提升方法