机器学习基础

见李宏毅第0课。

得分函数

权重需要训练得到。

损失函数最优化

左边是非凸函数，右边是凸函数。通过优化损失函数来调整权值。

凸函数

琴生不等式

微积分基础

梯度是一个点上升最快的方向。
梯度下降法。

极限

通俗语言适合于说给对方听，数学记号适合于写给对方看，精确描述比较啰嗦但是非常精确不会造成误解，主要用于证明。不会出错。

无穷小的阶数。

微分学

求导用链式法则。

积分学

泰勒级数。

牛顿法与梯度下降法

为什么不用牛顿法：
原因一：牛顿法需要用到梯度和Hessian矩阵，这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式，遑论直接得到其梯度表达式，更不要说得到基于梯度的Hessian矩阵了。
原因二：即使可以得到梯度和Hessian矩阵，当输入向量的维度NNN较大时，Hessian矩阵的大小是N×NN×NN\times N，所需要的内存非常大。
原因三：在高维非凸优化问题中，鞍点相对于局部最小值的数量非常多，而且鞍点处的损失值相对于局部最小值处也比较大。而二阶优化算法是寻找梯度为0的点，所以很容易陷入鞍点。

为什么研究凸函数，凸优化？

概率与统计基础

统计问题是概率问题的逆向工程。
概率问题是已知总体的情况，求一次的概率。统计问题则是根据样本的情况反推总体的情况。

概率统计与机器学习的关系

概率统计与机器学习天然相关，训练的过程可以看做是统计过程，预测过程可以看做是概率过程。预测分类就是选择一个概率最大的分类。

可以观察各个特征的分布以及标签的分布，筛选出相关性强的特征。

可基于各个分布的特性来评估模型和样本。
统计估计的是分布，机器学习训练出来的是模型，模型可能包含了很多的分布。
训练与预测过程的一个核心评价指标就是模型的误差
误差本身就可以使概率形式，与概率紧密相关。
对误差的不同定义方式就演化成了不同损失函数的定义方式。
机器学习是概率与统计的进阶版本。（不严谨的说法）

方差

协方差

可评估两个分布之间的关系。定义公式几何意义：协方差可以理解成特征进行预处理之后（去均值化，机器学习里比较重要的一个数据预处理的方法）对应的向量的几何的内积。协方差是评价两个变量的线性关系。如果是非线性关系，评价不出来。

相关系数是研究变量之间线性相关程度地量。

var是方差。

概率论

先验——根据若干年的统计（经验）或者气候（常识），某地方下雨（因）的概率；

似然/类条件概率——在下雨（因）的情况下，观测到了乌云（果）的概率，即原因已知时，结果出现的概率；

后验——根据天上有乌云（果），得到的下雨（因）的概率，即给定结果估计原因的概率；

x:观察得到的结果。

θ：决定数据分布的原因。

矩：

其中t是一个实数，i是虚数单位，E表示期望值。此乃原点矩。E(（X-0）^n)中心矩就是-μ。

即大部分都分布在均值周围。

没法研究随机变量就研究其特征函数。

当一个分布不是常见的分布时，根据大数定理，反复做实验就可以得到其期望和方差。

大数定理是告诉我们趋近一个数，中心极限定理是告诉我们以何种方式趋近一个数。一个正态分布。

参数估计（统计学）

点估计

利用样本来估计总体分布，总体分布的参数很多情况下是未知的。如均值μ、方差\sigma ^{2} 、泊松分布的λ、二项分布的比例π，其它分布还会有更多的未知参数，需要通过样本进行相应的估计，这种估计值就是点估计。

矩估计

极大似然估计

可以把概率密度看作是θ和x的联合概率密度，把x固定，那么概率密度最大的地方就是θ最可能的地方。

不是概率是因为相加起来和不等于1，类似于概率是因为数值大小是有意义的，代表了可能性的大小。

如何通俗地理解概率论中的「极大似然估计法」? - 马同学的回答 - 知乎
https://www.zhihu.com/question/24124998/answer/242682386

简单来说，极大似然函数就是通过样本来求使得概率（似然）为最大的那个θ值。似然越大，就越有可能是这个θ。所以目的就是让似然函数最大就完事了，然后可以通过对θ的梯度下降法，使得似然函数求最大，也就是损失函数为负的似然函数求最小。

点估计的评判准则

区间估计

对于未知参数，点估计值只是一个近似值，会存在或大或小误差，这时给一个范围可能是更合适，也是更可信的。比如从北京到张家界旅游5天，你恐怕不能准确说出要花多少钱，但你可以给出一个范围，比如10000—13000，你会觉得比较可信。如果给的范围太大，比如10000—30000，虽然可信度更高一些，但这么大的范围参考意义不大；如果给的范围很小，如10000——10500，则准确性提高了，但可信度就似乎不会很高。找到一个合适的估值范围，这是置信区间要解决的问题。

线性代数基础

（1）保持加法（2）保持乘法。
线性映射是最简单的研究对象，用线性映射去逼近别的东西。

线性变换与矩阵的关系，对任何向量x进行线性变换T的结果向量，是一个对基向量组进行线性变换T之后的新向量组的一个线性组合，系数没变。

只需要知道两个基向量i向量和j向量转换之后的的结果，而不用知道转换本身，我们就能推导出二维空间中所有向量转换之后的结果。

Ax的几何意义

矩阵乘向量，列向量的线性组合。

svd的几何意义。

一个很重要的降维算法。

矩阵乘法在计算中的优势

将很多for循环写成矩阵或者向量乘法的方式。
矩阵计算模块在底层有优化。
numpy进行矩阵运算很快。

机器学习数学基础上

2018-10-13
听课笔记