机器学习【一】概要

Shiheuan

2018-06-03

机器学习的典型任务：

回归

是指把实函数在样本点附近加以近似的有监督的模式识别问题。对一个或多个自变量和因变量之间关系进行建模，求解的一种统计方法。
分类

是指对于指定的模式进行识别的有监督的模式识别问题。
异常检测

是指寻找输入样本${\vec xi}{i=1}^n$中所包含的异常数据的问题。
常采用密度估计的方法：正常数据为靠近密度中心的数据；异常数据为偏离密度中心的数据。
聚类

与分类问题类似，是无监督的模式识别问题（在聚类问题中常用簇代表类别）。性质→簇，关进课题是计算样本之间的相似度。
降维

是指从高维度数据中提取关键信息，将其转换为易于计算的低维度问题进而求解的方法。

机器学习的主要流派

一个经典的分类问题，对模式$\vec x$的类别$y$进行预测，记为$\hat y$.

$\hat y=\underset{y} P(y|\vec x)$

在已知模式$\vec x$时，求得使分类类别$y$的条件概率（模式识别中称为后验概率）$P(y|\vec x)$达到最大值的类别$\hat y$. $\underset{y}{argmax} P(y|\vec x)$是指当条件概率$P(y|\vec x)$取最大值时对应的$y$值。

判别式分类

应用训练集直接对后验概率$P(y|\vec x)$进行学习的过程。

著有《统计学理论的本质》一书的弗拉基米尔·万普尼克（Vladimir Vapnik）提到：“要试图得到所需要的答案，而不是更一般的答案。很可能你拥有足够的信息来很好地解决一个感兴趣的特定问题，但却没有足够的信息来解决一个一般性的问题。”
产生式分类（生成的分类）

通过预测数据生成概率（联合概率）$P(\vec x,y)$来进行模式识别的分类方法。
$P(y|\vec x)=\frac{P(\vec x,y)}{P(\vec x)}$ $P(\vec x)=\sum_yP(\vec x,y)$
可见，数据生成概率是更一般的问题。
概率派（统计概率）

（包含参数$\vec \theta$的模型$q(\vec x_i,y_i|\vec \theta)$为例，说明计算数据生成概率的问题）

将模式$\vec \theta$作为决定性的变量，用训练样本$\mathcal D={(\vec xi,y_i)}{i=1}^n$对模型$\vec \theta$进行学习。

在最大似然估计（Maximum Likelihood Estimation）算法中，对生成训练集$\mathcal D$的最容易的方法所对应的模式$\vec \theta$进行学习。
$\underset{\vec \theta}{max}\prod_{i=1}^n q(\vec x_i,y_i;\vec \theta)$
$\vec xi$服从独立同分布（i.i.d），概率密度$f(x_1,x_2,\cdots,x_n|\theta)=\prod{i=1}^nf(x_i|\theta)$.
在结果（$\vec x_i$）与参数（$\vec \theta$）相互对应时，似然和概率在数值上是相等的，因此似然可以定义为:
$\mathcal L(\theta;x_1,x_2,\cdots,x_n)=f(x_1,x_2,\cdots,x_n|\theta)=\prod_{i=1}^nf(x_i|\theta)$
而最大似然估计为：
$\ln \mathcal L(\theta;\vec x)=\sum_{i=1}^n \ln f(\vec x_i|\theta)$
贝叶斯派（朴素贝叶斯）

（包含参数$\vec \theta$的模型$q(\vec x_i,y_i|\vec \theta)$为例，说明计算数据生成概率的问题）

将模式$\vec \theta$作为概率变量，对其先验概率$P(\vec \theta$加以考虑，计算与训练集相对应的后验概率$P(\vec \theta|\mathcal D)$.
$P(\vec \theta|\mathcal D)=\frac{P(\mathcal D|\vec \theta)P(\vec \theta)}{P(\mathcal D)}=\frac{\prod_{i=1}^n q(\vec x_i,y_i|\vec \theta)P(\vec \theta)}{\int \prod_{i=1}^n q(\vec x_i,y_i|\vec \theta)P(\vec \theta)d \vec \theta}$
这里$P(\mathcal D)$是数据实际分布的情况，$q(\vec x_i,y_i|\vec \theta)$是似然函数值。

在《图解机器学习》一书中，以基于频率派的识别式机器学习算法为主。

学习模型

机器学习算法的学习模型大多着重于如何使特定函数与数据集相近似。

魏尔斯特拉斯（Weierstrass）第一逼近定理：假设$f(x)$是闭区间$[a,b]$上的连续函数，对任意的$\epsilon>0$，则存在多项式$P(x)$使得对于所有的$x\in [a,b]$，有$|f(x)-P(x)|<\epsilon$.

线性模型

线性模型并非仅仅指自变量与因变量为线性的模型（$y=kx$），也表示基于参数的线性模型，可以用来表示非线性的输入输出关系。
$f_\theta(x)=\theta x$ $f_\theta(\vec x)=\sum_{j=1}^b\theta _j\phi _j(\vec x)=\vec\theta ^T\vec\Phi(\vec x)$
这里的$\phi(x)$为基函数，$\vec x$为高维输入数据。
乘法模型

把一维基函数作为因子，通过使其相乘获得多维基函数(参数个数为$b’^d$)。
$f_\theta(\vec x)=\sum_{j_1=1}^{b'}\cdots\sum_{j_d=1}^{b'} \theta_{j_1,\cdots,j_d}\phi_{j_1}(x^{(1)})\cdots\phi_{j_d}(x^{(d)})$
加法模型

把一维基函数作为因子，通过使其相加获得多维基函数(参数个数为$b’d$)。
$f_\theta(\vec x)=\sum_{k=1}^{d}\sum_{j=1}^{b'}\theta_{k,j}\phi_j(x^{(k)})$
核模型

使用核函数，以$K(\vec x,\vec xj){j=1}^n$线性结合的方式定义（输入样本${xi}{i=1}^n$）。
$f_\theta(\vec x)=\sum_{j=1}^n\theta_jK(\vec x,\vec x_j)$
高斯核函数：
$K(\vec x,\vec c)=exp(-\frac{\|\vec x-\vec c\|_2^2}{2h^2})$
这里的$h$为带宽，$\vec c$为均值。

欧几里得范数（L2-Norm）： $|\vec x|_2=\sqrt {x_1^2+x_2^2+\cdots+x_n^2}$
层级模型

是非线性模型之一，人工神经网络模型。
$f_\theta(\vec x)=\sum_{j=1}^b\alpha_j\phi(\vec x;\beta_j)$
关于参数向量$\vec \alpha$的线性形式；关于参数向量$\vec \theta=(\vec \alpha^T,\vec \beta^T)^T$的非线性形式。