音乐播放器
My Brain
 
文章 标签
8

Powered by Gridea | Theme: Fog
载入天数...
载入时分秒...

机器学习实战(十三):核函数

核函数

一、核心思想

在前面我们所讨论的分类器中,基本都是线性分类器,但是当数据集不存在一个线性的决策边界时,线性分类器便无法很好得进行分类。
事实证明,有一种优雅的方法可以将非线性问题合并到大多数的线性分类器可解决的问题中,即将线性分类器非线性化,这便是核函数。

我们可以看一个经典的例子:如下图所示的数据集,显然它是不存在线性的决策边界的,但是我们可以通过函数 ϕ ~\phi~对特征向量进行特征变换使得数据线性可分。

我们不妨将特征变换函数定义为:

ϕ(x)=ϕ([x1,x2]T)=[x1,x2,x1x2]T\phi(x)=\phi([x_1,x_2]^T)=[x_1,x_2,|x_1\cdot x_2|]^T

我们所添加的维度捕捉了原始特征之间的非线性交互,使得数据变为了线性可分,升维的方法较为简便,并且使得问题保持凸且表现良好,但是缺点是升维可能会导致维度过高,使得模型变得复杂,比如下面这个例子所示:

通过特征变换,维度从 d ~d~维变为了 2d ~2^d~维,这种新的表示法 ϕ(x) ~\phi(x)~非常有表现力,允许复杂的非线性决策边界,但维数非常高。这使得我们的算法速度慢得令人无法忍受。

二、核技巧

核技巧是一种通过在更高维空间中学习函数来绕过这一困境的方法,而无需计算单个向量 ϕ(x) ~\phi(x)~或完整向量 w ~w~

2.1 梯度下降

我们考虑平方损失函数的梯度下降过程:

l(w)=i=1n(wTxiyi)2l(w)=\sum_{i=1}^n(w^Tx_i-y_i)^2

在梯度下降过程中,我们每次需要选择一个步长进行更新:

wt+1=wts(l(w)w)l(w)w=2i=1n(wTxiyi)xiw_{t+1}=w_{t}-s\cdot(\frac{\partial l(w)}{\partial w})\\ \frac{\partial l(w)}{\partial w}=2\sum_{i=1}^n(w^Tx_i-y_i)\cdot x_i

此处我们要引入一个重要的假设:我们可以将参数 w ~w~表示为特征向量 xi ~x_i~的线性组合:

w=i=1nαixiw=\sum_{i=1}^n\alpha_ix_i

根据该假设我们可以得到: wt+1 ~w_{t+1}~ xi ~x_i~线性相关, wt ~w_t~ xi ~x_i~线性相关,由此:梯度 l(w)w ~\frac{\partial l(w)}{\partial w}~ xi ~x_i~线性相关:

l(w)w=2i=1n(wTxiyi)xi=i=1nγixi\frac{\partial l(w)}{\partial w}=2\sum_{i=1}^n(w^Tx_i-y_i)\cdot x_i=\sum_{i=1}^n\gamma_ix_i

由于损失函数为凸函数,最终解与初始化无关我们可以将 w0 ~w_0~初始化为我们想要的任何值,我们不妨令:

w0=[0,0,...,0]T,α0=[0,0,...,0]Tw_0=[0,0,...,0]^T,\alpha^0=[0,0,...,0]^T

根据上述分析我们可以得到梯度下降的过程为:

w1=w0s2i=1n(w0Txiyi)xi=i=1nαi0xisi=1nγi0xi=i=1nαi1xi    α1=α0sγ0w2=w1s2i=1n(w1Txiyi)xi=i=1nαi1xisi=1nγi1xi=i=1nαi2xi    α2=α1sγ1w3=w2s2i=1n(w2Txiyi)xi=i=1nαi2xisi=1nγi2xi=i=1nαi2xi    α3=α2sγ2...wt=wt1s2i=1n(wt1Txiyi)xi=i=1nαit1xisi=1nγit1xi=i=1nαitxi    αt=αt1sγt1\begin{aligned} &w_1=w_0-s\cdot2\sum_{i=1}^n(w_0^Tx_i-y_i)x_i=\sum_{i=1}^n\alpha_i^0x_i-s\sum_{i=1}^n\gamma_i^0x_i=\sum_{i=1}^n\alpha_i^1x_i~~~~\alpha^1=\alpha^0-s\gamma^0\\ &w_2=w_1-s\cdot2\sum_{i=1}^n(w_1^Tx_i-y_i)x_i=\sum_{i=1}^n\alpha_i^1x_i-s\sum_{i=1}^n\gamma_i^1x_i=\sum_{i=1}^n\alpha_i^2x_i~~~~\alpha^2=\alpha^1-s\gamma^1\\ &w_3=w_2-s\cdot2\sum_{i=1}^n(w_2^Tx_i-y_i)x_i=\sum_{i=1}^n\alpha_i^2x_i-s\sum_{i=1}^n\gamma_i^2x_i=\sum_{i=1}^n\alpha_i^2x_i~~~~\alpha^3=\alpha^2-s\gamma^2\\ &...\\ &w_t=w_{t-1}-s\cdot2\sum_{i=1}^n(w_{t-1}^Tx_i-y_i)x_i=\sum_{i=1}^n\alpha_i^{t-1}x_i-s\sum_{i=1}^n\gamma_i^{t-1}x_i=\sum_{i=1}^n\alpha_i^tx_i~~~~\alpha^t=\alpha^{t-1}-s\gamma^{t-1}\\ \end{aligned}

因为 αi0=0 ~\alpha^0_i=0~,则有:

αi1= 0 sγi0=sγi0αi2=αi1sγ01=sγi0sγi1αi3=αi2sγi2=sγi0sγi1sγi2...αit=αit1sγit1=sr=1t1γir\begin{aligned} &\alpha^1_i=~0~-s\gamma^0_i=-s\gamma^0_i\\ &\alpha^2_i=\alpha^1_i-s\gamma^1_0=-s\gamma^0_i-s\gamma^1_i\\ &\alpha^3_i=\alpha_i^2-s\gamma^2_i=-s\gamma^0_i-s\gamma^1_i-s\gamma^2_i\\ &...\\ &\alpha^t_i=\alpha_i^{t-1}-s\gamma^{t-1}_i=-s\sum_{r=1}^{t-1}\gamma_i^r \end{aligned}

我们用 xi ~x_i~的线性组合代替 w ~w~,得到新的模型和损失函数:

h(xi)=wtTxi=j=1nαjtxjTxil(w)=i=1n(wtTxiyi)2=i=1n(j=1nαjtxjTxiyi)2h(x_i)=w_t^Tx_i=\sum_{j=1}^n\alpha_j^tx_j^Tx_i\\ l(w)=\sum_{i=1}^n(w^T_tx_i-y_i)^2=\sum_{i=1}^n(\sum_{j=1}^n\alpha_j^tx_j^Tx_i-y_i)^2

由此我们可以发现:为了学习具有平方损失的超平面分类器,我们需要的唯一信息是所有数据的特征向量对之间的内积。

2.2 计算内积

有了上述推导,我们将模型简化为只需要求解向量对之间的内积,我们回归到上述的升维操作中去:

在升维之后,内积的计算公式为:

ϕ(x)Tϕ(z)=1+x1z1+x2z2+...x1x2...xdz1z2...zd=k=1d(1+xkzk)\phi(x)^T\phi(z)=1+x_1z_1+x_2z_2+...x_1x_2...x_dz_1z_2...z_d=\prod_{k=1}^d(1+x_kz_k)

我们可以发现,尽管特征向量是 2d ~2^d~维的,但是计算其内积仅需要 d ~d~次乘法运算,这极大提高了算法的速度。

我们由此即可定义核函数:

k(xi,xj)=ϕ(xi)Tϕ(xj)k(x_i,x_j)=\phi(x_i)^T\phi(x_j)

核函数计算出的结果存储在核矩阵中:

Kij=ϕ(xi)Tϕ(xj)K_{ij}=\phi(x_i)^T\phi(x_j)

诸如 ϕ ~\phi~之类的用于升维的映射并不好找,因此我们用核函数 k(xi,xj) ~k(x_i,x_j)~去代替这样的映射,处理线性不可分问题。

则上述模型可以表示为:可以发现模型中唯一的未知参数即为 α ~\alpha~,我们需要对它进行求解

h(xi)=wTxi=j=1nαjxjTxi=j=1nαjk(xj,xi)h(x_i)=w^Tx_i=\sum_{j=1}^n\alpha_jx_j^Tx_i=\sum_{j=1}^n\alpha_jk(x_j,x_i)

同时我们也已经得到了:

αit=sr=1t1γir\alpha^t_i=-s\sum_{r=1}^{t-1}\gamma_i^r

所以当下我们的求解目标变为了 γ ~\gamma~

l(w)w=2i=1n(wTxiyi)xi=i=1nγixiγi=2(wTxiyi)\frac{\partial l(w)}{\partial w}=2\sum_{i=1}^n(w^Tx_i-y_i)\cdot x_i=\sum_{i=1}^n\gamma_ix_i\\ \gamma_i=2(w^Tx_i-y_i)

在经过 ϕ ~\phi~特征变换的新的高维空间中有:

γi=2(wTϕ(xi)yi)=2(j=1nαjk(xj,xi)yi)\gamma_i=2(w^T\phi(x_i)-y_i)=2(\sum_{j=1}^n\alpha_jk(x_j,x_i)-y_i)

则梯度下降的过程为:

αit+1=αitsγit=αit2s(j=1nαjtk(xj,xi)yi)\alpha_i^{t+1}=\alpha_i^t-s\gamma_i^t=\alpha_i^t-2s(\sum_{j=1}^n\alpha_j^tk(x_j,x_i)-y_i)

梯度下降过程中,每次更新 α ~\alpha~的计算量为 O(n2) ~O(n^2)~,远好于 O(2d) ~O(2^d)~

三、一般核函数

3.1 常用核函数

(1)线性核函数:

K(x,z)=xTzK(x,z)=x^Tz

(2)多项式核函数:

K(x,z)=(1+xTz)dK(x,z)=(1+x^Tz)^d

(3)高斯核函数(RBF\text{RBF}):

K(x,z)=exz22σ2K(x,z)=e^{-\frac{||x-z||_2^2}{\sigma^2}}

(4)指数核函数:

K(x,z)=exz2σ2K(x,z)=e^{-\frac{||x-z||}{2\sigma^2}}

(5)拉普拉斯核函数:

K(x,z)=exzσK(x,z)=e^{-\frac{|x-z|}{\sigma}}

(6)Sigmoid\text{Sigmoid}核函数: tanh(x)=exexex+ex ~\tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}~

K(x,z)=tanh(γxTz+r)K(x,z)=\tanh(\gamma x^Tz+r)

3.2 良定义核函数

良定义的核函数定义如下:通过递归组合以下一个或多个规则构建的核称为定义良好的核:

 k(x,z)=xTz k(x,z)=ck1(x,z) k(x,z)=k1(x,z)+k2(x,z) k(x,z)=g(k(x,z)) k(x,z)=k1(x,z)k2(x,z) k(x,z)=f(x)k1(x,z)f(z) k(x,z)=ek1(x,z) k(x,z)=xTAz\begin{aligned} &①~k(x,z)=x^Tz\\ &②~k(x,z)=ck_1(x,z)\\ &③~k(x,z)=k_1(x,z)+k_2(x,z)\\ &④~k(x,z)=g\big(k(x,z)\big)\\ &⑤~k(x,z)=k_1(x,z)\cdot k_2(x,z)\\ &⑥~k(x,z)=f(x)k_1(x,z)f(z)\\ &⑦~k(x,z)=e^{k_1(x,z)}\\ &⑧~k(x,z)=x^TAz \end{aligned}

上述规则中 k1(x,z) ~k_1(x,z)~ k2(x,z) ~k_2(x,z)~都是良定义的核函数, c0 ~c\ge0~ g ~g~是一个正系数多项式函数, f ~f~是任何函数, A ~A~是半正定的

某个核函数是良定义的等价为:
①核矩阵 K ~K~的特征值都是非负的
②存在实矩阵 P ~P~使得: K=PTP ~K=P^TP~
③核矩阵 K ~K~是半正定的,即对于任何向量 x ~x~,都有: xTKx0 ~x^TKx\ge0~

定理 3-1

RBFk(x,z)=e(xz)2σ2\text{RBF}核函数:k(x,z)=e^{-\frac{(x-z)^2}{\sigma^2}}是良定义的

证明如下:

k(x,z)=e(xz)2σ2=e1σ2(xTx2xTz+zTz)=exTxσ2e2xTzσ2exTxσ2\begin{aligned} &k(x,z)=e^{-\frac{(x-z)^2}{\sigma^2}}=e^{-\frac1{\sigma^2}(x^Tx-2x^Tz+z^Tz)}=e^{-\frac{x^Tx}{\sigma^2}}\cdot e^{\frac{2x^Tz}{\sigma^2}}\cdot e^{-\frac{x^Tx}{\sigma^2}} \end{aligned}

f(x)=exTxσ2,k1(x,z)=e2xTzσ2k(x,z)=f(x)k1(x,z)f(z)k2(x,z)=2xTzσ2k1(x,z)=ek2(x,z)k3(x,z)=xTz,c=2xTzσ2k2(x,z)=ck3(x,z)k3(x,z) is well definedk2(x,z) is well definedk1(x,z) is well defined\begin{aligned} &根据规则⑥:f(x)=e^{-\frac{x^Tx}{\sigma^2}},k_1(x,z)=e^{\frac{2x^Tz}{\sigma^2}}\rightarrow k(x,z)=f(x)\cdot k_1(x,z)\cdot f(z)\\ &根据规则⑦:k_2(x,z)=\frac{2x^Tz}{\sigma^2}\rightarrow k_1(x,z)=e^{k_2(x,z)}\\ &根据规则②:k_3(x,z)=x^Tz,c=\frac{2x^Tz}{\sigma^2}\rightarrow k_2(x,z)=c\cdot k_3(x,z)\\ &根据规则①:k_3(x,z)\text{ is well defined}\rightarrow k_2(x,z)\text{ is well defined}\rightarrow k_1(x,z)\text{ is well defined}\\ \end{aligned}

综上推导:

k(x,z) is well definedk(x,z)\text{ is well defined}

定理 3-2

S1,S2Ω,k(S1,S2)=eS1S2S_1,S_2\in \Omega,k(S_1,S_2)=e^{|S_1\cap S_2|}是良定义的

证明如下:

 Ω ~\Omega~中所有可能的元素排列成一个列表,S1,S2S_1,S_2分别用一个大小为 Ω ~|\Omega|~的向量 xS1,xS2 ~x^{S_1},x^{S_2}~表示,如果 Ω ~\Omega~中的第 i ~i~个元素属于 S ~S~,则 xiS=1 ~x^{S}_i=1~,反之则 xiS=0 ~x^{S}_i=0~,则上述核函数可以表示为:

k(S1,S2)=exS1TxS2\begin{aligned} &k(S_1,S_2)=e^{x_{S_1}^Tx_{S_2}} \end{aligned}

根据规则⑦和规则①,我们可以得到: k(S1,S2) ~k(S_1,S_2)~为良定义核函数。

四、模型核化

一个算法可以通过三步实现核化:
①证明解决方案位于训练点的范围内,即对于某些 αi ~\alpha_i~

w=i=1nαixiw=\sum_{i=1}^n\alpha_ix_i

②重构算法与分类器,使得输入的特征向量仅用于内积的计算
③将内积替换为核函数:

xiTxjϕ(xi)Tϕ(xj)x_i^Tx_j\rightarrow\phi(x_i)^T\phi(x_j)

4.1 线性回归核化

我们回顾一下普通的最小二乘回归 OLS ~OLS~

l(w)=i=1n(xiTwyi)w^MLE=argminw i=1n(xiTwyi)h(x)=wTxl(w)=\sum_{i=1}^n(x_i^Tw-y_i)\\ \hat{w}_{MLE}=\underset{w}{argmin}~\sum_{i=1}^n(x_i^Tw-y_i)\\ h(x)=w^Tx

输入的训练集为 X ~X~ Y ~Y~,则其闭合形式为:

w=(XTX)1XTYw=(X^TX)^{-1}X^TY

我们对该模型进行核化: X ~X~ n×d ~n\times d~维矩阵, Y ~Y~ n×1 ~n\times1~维矩阵, w,xi ~w,x_i~ d×1 ~d\times1~维矩阵, α ~\alpha~ n×1 ~n\times1~维矩阵
①将 w ~w~表示为 xi ~x_i~的线性组合: α=[ α1,α2,...,αn ]T ~\alpha=[~\alpha_1,\alpha_2,...,\alpha_n~]^T~

w=i=1nαixi=XTα\begin{aligned} &w=\sum_{i=1}^n\alpha_ix_i=X^T\alpha \end{aligned}

②将模型修正为输入特征向量的内积:

h(xi)=j=1nαjxjTxi=wTxi=αTXxih(x_i)=\sum_{j=1}^n\alpha_jx_j^Tx_i=w^Tx_i=\alpha^TXx_i

③用核函数代替内积:

h(xi)=j=1nαjk(xj,xi)h(x_i)=\sum_{j=1}^n\alpha_jk(x_j,x_i)

求解 α ~\alpha~的闭合形式:

w=XTα=(XTX)1XTYXTXXTα=XTYXXTα=YKij=k(xi,xj)K=XXTKα=Yα=K1Y\begin{aligned} &w=X^T\alpha=(X^TX)^{-1}X^TY\rightarrow X^TXX^T\alpha=X^TY\rightarrow XX^T\alpha=Y\\ &K_{ij}=k(x_i,x_j)\rightarrow K=XX^T\rightarrow K\alpha=Y\\ &\alpha=K^{-1}Y \end{aligned}

岭回归同理,我们也可以实现同样的核化并求解 α ~\alpha~的闭合形式:

模型为:

l(w)=i=1n(xiTwyi)+λw22w^MAP=argminw i=1n(xiTwyi)+λw22h(x)=j=1nαjk(xj,xi)l(w)=\sum_{i=1}^n(x_i^Tw-y_i)+\lambda||w||_2^2\\ \hat{w}_{MAP}=\underset{w}{argmin}~\sum_{i=1}^n(x_i^Tw-y_i)+\lambda||w||_2^2\\ h(x)=\sum_{j=1}^n\alpha_jk(x_j,x_i)

 α ~\alpha~的闭合形式为:

w=XTα=(XTX+λI)1XTY(XTX+λI)XTα=XTY(XTXXT+λXT)α=XTY(XXT+λI)α=Yα=(K+λI)1Y\begin{aligned} &w=X^T\alpha=(X^TX+\lambda I)^{-1}X^TY\rightarrow (X^TX+\lambda I)X^T\alpha=X^TY\\ &\rightarrow (X^TXX^T+\lambda X^T)\alpha=X^TY\rightarrow (XX^T+\lambda I)\alpha=Y\\ &\rightarrow \alpha=(K+\lambda I)^{-1}Y \end{aligned}

4.2 KNN核化

我们以欧拉距离的 KNN ~KNN~模型为例:

dist(xi,xj)=(xixj)T(xixj)=xiTxi2xiTxj+xjTxj=k(xi,xi)2k(xi,xj)+k(xj,xj)\text{dist}(x_i,x_j)=(x_i-x_j)^T(x_i-x_j)=x_i^Tx_i-2x_i^Tx_j+x_j^Tx_j=k(x_i,x_i)-2k(x_i,x_j)+k(x_j,x_j)

但是上述核化的意义并不大,因此我们一般不对 KNN ~KNN~算法进行核化。

4.3 支持向量机核化

线性支持向量机结合核函数是一个很强大的模型,我们往往求解其对偶问题,所以我们需要先了解对偶问题的定义。

4.3.1 拉格朗日乘子法与KKT条件

在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法。在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。

我们这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值,支持向量机模型即为该类最优化为问题。

在求解最优化问题时一般会遇到三种情况:

(1)无约束条件:
这是最简单的情况,解决方法通常是函数对变量求导,令求导函数等于0的点可能是极值点。将结果带回原函数进行验证即可。

(2)等式约束条件:
设目标函数为 f(x) ~f(x)~,约束条件为 hk(x) ~h_k(x)~,有 l ~l~个约束条件,则等式约束条件的最优化问题可以表示为:

minf(x)hk(x)=0,k=1,2,...l\begin{aligned} &求解目标:\min f(x)\\ &约束条件:h_k(x)=0,k=1,2,...l \end{aligned}

我们要用到拉格朗日乘子法处理该最优化问题:首先定义拉格朗日函数:

F(x.λ)=f(x)+k=1lλkhk(x)F(x.\lambda)=f(x)+\sum_{k=1}^l\lambda_kh_k(x)

然后解变量的偏导方程:

F(x,λ)x1=0,F(x,λ)x2=0,...,F(x,λ)xd=0F(x,λ)λ1=0,F(x,λ)λ2=0,...,F(x,λ)λk=0\frac{\partial F(x,\lambda)}{\partial x_1}=0,\frac{\partial F(x,\lambda)}{\partial x_2}=0,...,\frac{\partial F(x,\lambda)}{\partial x_d}=0\\ \frac{\partial F(x,\lambda)}{\partial \lambda_1}=0,\frac{\partial F(x,\lambda)}{\partial \lambda_2}=0,...,\frac{\partial F(x,\lambda)}{\partial \lambda_k}=0

(3)不等式约束条件:
设目标函数为 f(x) ~f(x)~,不等式约束条件为 gk(x) ~g_k(x)~,有 q ~q~个不等式约束条件,等式约束条件为 hj(k) ~h_j(k)~,有 p ~p~个等式约束条件:

minf(x)hj(x)=0,j=1,2,...,p                 gk(x)0,k=1,2,...,q\begin{aligned} &求解目标:\min f(x)\\ &约束条件:h_j(x)=0,j=1,2,...,p\\ &~~~~~~~~~~~~~~~~~g_k(x)\le0,k=1,2,...,q \end{aligned}

则我们可以定义不等式约束条件下的拉格朗日函数为:

L(x,λ,μ)=f(x)+j=1pλjhj(x)+k=1qμkgk(x)L(x,\lambda,\mu)=f(x)+\sum_{j=1}^p\lambda_jh_j(x)+\sum_{k=1}^q\mu_kg_k(x)

常用的方法是 KKT ~KKT~条件:即最优值(局部最小值)必须满足以下条件:

 L(x,λ,μ)xx=x=0 hj(x)=0 μkgk(x)=0\begin{aligned} &①~\frac{\partial L(x,\lambda,\mu)}{\partial x}|_{x=x^*}=0\\ &②~h_j(x^*)=0\\ &③~\mu_kg_k(x^*)=0 \end{aligned}

4.3.2 对偶问题的核化

我们首先回顾支持向量机的模型:为了便于计算我们引入一个常系数 12 ~\frac12~

(w,b)=argminw,b 12w22i , yi(wTxi+b)1\begin{aligned} &求解目标:(w,b)=\underset{w,b}{argmin}~\frac12||w||^2_2\\ &约束条件:\forall i~,~y_i(w^Tx_i+b)\ge 1 \end{aligned}

则拉格朗日函数为:

L(w,b,α)=12w22+i=1nαi(1yi(wTxi+b))L(w,b,\alpha)=\frac12||w||_2^2+\sum_{i=1}^n\alpha_i\big(1-y_i(w^Tx_i+b)\big)

根据 KKT ~KKT~条件可得:

L(w,b,α)w=wi=1nαiyixi=0L(w,b,α)b=i=1nαiyi=0\begin{aligned} &\frac{\partial L(w,b,\alpha)}{\partial w}=w-\sum_{i=1}^n\alpha_iy_ix_i=0\\ &\frac{\partial L(w,b,\alpha)}{\partial b}=-\sum_{i=1}^n\alpha_i y_i=0 \end{aligned}

我们同时也知道,在 w,b ~w,b~取得最优值时有: yi(wTxi+b)=1 ~y_i(w^Tx_i+b)=1~满足了 KKT ~KKT~条件

综上,我们可得:

w=i=1nαiyixii=1nαiyi=0\begin{aligned} &w=\sum_{i=1}^n\alpha_iy_ix_i\\ &\sum_{i=1}^n\alpha_iy_i=0 \end{aligned}

我们上述条件代入原式可得:

(w,b)=argminw,b 12i=1nj=1nαiαjyiyjxiTxj+i=1nαii=1nj=1nαiyiyjxiTxjbi=1nαiyi(w,b)=argminw,b i=1nαi12i=1nj=1nαiαjyiyjxiTxj\begin{aligned} &(w,b)=\underset{w,b}{argmin}~\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j+\sum_{i=1}^n\alpha_i-\sum_{i=1}^n\sum_{j=1}^n\alpha_iy_iy_jx_i^Tx_j-b\cdot\sum_{i=1}^n\alpha_iy_i\\ &\rightarrow(w,b)=\underset{w,b}{argmin}~\sum_{i=1}^n\alpha_i-\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j \end{aligned}

由此我们得到了支持向量机模型的对偶问题:

α=argmaxα i=1nαi12i=1nj=1nαiαjyiyjxiTxji=1nαiyi=0\begin{aligned} &求解目标:\alpha=\underset{\alpha}{argmax}~\sum_{i=1}^n\alpha_i-\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ &约束条件:\sum_{i=1}^n\alpha_iy_i=0 \end{aligned}

显然我们可以对该对偶问题进行核化:

α=argmaxα i=1nαi12i=1nj=1nαiαjyiyjk(xi,xj)\alpha=\underset{\alpha}{argmax}~\sum_{i=1}^n\alpha_i-\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jk(x_i,x_j)

最终的模型为:

h(x)=sign(wTx+b)=sign(i=1nαiyik(xi,x)+b)h(x)=\text{sign}(w^Tx+b)=\text{sign}\big(\sum_{i=1}^n\alpha_iy_ik(x_i,x)+b\big)

从支持向量的角度对对偶问题有一个很好的解释:对于原始公式,我们知道只有支持向量满足等式约束:

yi(wTϕ(xi)+b)=1y_i\big(w^T\phi(x_i)+b\big)=1

在对偶问题中我们可以使得支持向量所对应的 αi>0 ~\alpha_i>0~,而其他的输入向量对应的 αi=0 ~\alpha_i=0~,在测试时我们只需要计算支持向量上 h(x) ~h(x)~的和,并在训练后丢弃所有 αi=0 ~\alpha_i=0~的特征向量。

对偶有一个明显的问题,就是 b ~b~不再是优化的一部分了,但是我们需要它来进行分类,在对偶中支持向量是那些 αi>0 ~α_i>0~的向量,因此我们可以推导出 b ~b~

yi(wTϕ(xi)+b)=1,yi{1,+1}b=yiwTϕ(xi)b=yij=1nαjyjk(xj,xi)\begin{aligned} &y_i(w^T\phi(x_i)+b)=1,y_i\in\{-1,+1\}\rightarrow b=y_i-w^T\phi(x_i)\\ &\rightarrow b=y_i-\sum_{j=1}^n\alpha_jy_jk(x_j,x_i) \end{aligned}

同时如果使用软间隔模型,则仅需添加一个新的约束:

0αiC0\le\alpha_i\le C

五、模型实现

我们本次要手动实现核化的软间隔支持向量机,主要运用其对偶问题求解最优化问题。

5.1 数据集

我们本次要生成线性不可分的数据集,因为这样才能体现出核函数的优势所在,生成线性不可分数据集的代码如下所示:我们主要用到的是sklearn所提供的make_moons生成双半月环数据集,这是一个经典的线性不可分数据集。

'''屏蔽warning'''
import warnings
warnings.filterwarnings("ignore")
'''导入重要库'''
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons

'''生成数据'''
data,target=make_moons(n_samples=1000,noise=0.1)
'''可视化'''
ax=plt.figure(figsize=(7,4),dpi=100).add_subplot()#初始化画板
plt.scatter(data[:,0],data[:,1],c=target)
plt.show()
'''存储数据集'''
df=pd.DataFrame(data=data,columns=["feature1","feature2"])
df['label']=target
df.to_csv("data/moons_data.csv",index=False)

生成的数据集如下图所示:

5.2 手动实现模型

5.2.1 模型阐述

求解思路来自:支持向量机(SVM)——对偶问题

我们首先要了解对于对偶形式的支持向量机模型的求解方法,考虑到软约束,我们的模型为:

α=argmaxα i=1nαi12i=1nj=1nαiαjyiyjxiTxji=1nαiyi=0,0αiC\begin{aligned} &求解目标:\alpha=\underset{\alpha}{argmax}~\sum_{i=1}^n\alpha_i-\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j\\ &约束条件:\sum_{i=1}^n\alpha_iy_i=0,0\le\alpha_i\le C \end{aligned}

我们最后求解出的模型为:

h(xi)=j=1nαjyjxjTxi+bh(x_i)=\sum_{j=1}^n\alpha_jy_jx_j^Tx_i+b

我们首先实现该模型的代码:

'''模型计算值h(xi)'''
def _h(self,i):
    r=self.b
    for j in range(self.n):
        r+=self.alpha[j]*self.Y[j]*self.kernel(self.X[j],self.X[i])
    return r

基于原始模型以及我们作出的假设, KKT ~KKT~条件为:

{0αiCyih(xi)10αi(yih(xi)1)=0\begin{aligned} \left\{ \begin{aligned} &0\le\alpha_i\le C\\ &y_i\cdot h(x_i)-1\ge 0\\ &\alpha_i(y_i\cdot h(x_i)-1)=0 \end{aligned} \right. \end{aligned}

因为我们有:支持向量所对应的 αi>0 ~\alpha_i>0~,而其他的输入向量对应的 αi=0 ~\alpha_i=0~的设定,支持向量是那些满足yih(xi)=1y_ih(x_i)=1的点,所以有:

αi(yih(xi)1)=0\alpha_i(y_i\cdot h(x_i)-1)=0

接着我们需要求解核心问题:

α=argmaxα i=1nαi12i=1nj=1nαiαjyiyjxiTxj\alpha=\underset{\alpha}{argmax}~\sum_{i=1}^n\alpha_i-\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j\\

5.2.2 求解思路

这是一个二次规划问题,我们用到 SMO ~SMO~算法对其进行求解,算法思路来自:SMO算法详解

我们不妨先将问题作一个变形:

α=argminα 12i=1nj=1nαiαjyiyjxiTxji=1nαi\alpha=\underset{\alpha}{argmin}~\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum_{i=1}^n\alpha_i\\

我们要寻找一个满足约束条件的 α=[ α1,α2,...,αn ] ~\alpha=[~\alpha_1,\alpha_2,...,\alpha_n~]~,假设我们已经找到了这样的一个 α ~\alpha~,即最终的超平面已经确定:

h(xi)=wTxi+bh(x_i)=w^Tx_i+b

那么该超平面是满足 KKT ~KKT~条件的,则有:

{yih(xi)1    αi=0    ,xiyih(xi)=10<αi<C,xiyih(xi)1    αi=C    ,xi\begin{aligned} &\left\{ \begin{aligned} &y_i\cdot h(x_i)\ge1\rightarrow ~~~~\alpha_i=0~~~~,x_i在边界内,正确分类\\ &y_i\cdot h(x_i)=1\rightarrow 0<\alpha_i< C,x_i在边界上,是支持向量,正确分类\\ &y_i\cdot h(x_i)\le1\rightarrow ~~~~\alpha_i=C~~~~,x_i在两条边界之间 \end{aligned} \right. \end{aligned}

反过来想,我们求解出来的 αi ~\alpha_i~ xi ~x_i~也要满足上述关系。

综上我们的求解过程便是初始化一个 α ~\alpha~并不断得对其进行优化,直到找到最优的那个 α ~\alpha~ SMO ~SMO~算法每次选择两个 αi,αj ~\alpha_i,\alpha_j~进行更新。
根据我们的约束,显然这两个 αi,αj ~\alpha_i,\alpha_j~满足:

αiyi+αjyj=k=1,k=i,jnαkyk=ξ\alpha_iy_i+\alpha_jy_j=-\sum_{k=1,k\not=i,j}^n\alpha_ky_k=\xi

因此有:

αi=ξαjyjyi=(ξαjyj)yi , yi{1,+1}\alpha_i=\frac{\xi-\alpha_jy_j}{y_i}=(\xi-\alpha_jy_j)y_i~,~y_i\in\{-1,+1\}

因此我们只需要找到一个 αj ~\alpha_j~进行优化,并且求出优化后的值,那么我们的 αi ~\alpha_i~也完成了优化,为了便于表示,后面我们将挑选出的两个 αi,αj ~\alpha_i,\alpha_j~记作 α1,α2 ~\alpha_1,\alpha_2~

从效果上考虑我们应该优化那些最不满足目标条件的 αi ~\alpha_i~,而在我们优化过后它不满足目标条件的程度应该减小,而我们为了衡量一个 αi ~\alpha_i~满足目标条件的程度,引入一个指标:我们首先定义一个误差:

Ei=h(xi)yiE_i=h(x_i)-y_i

我们发现 E1E2 ~|E_1-E_2|~越大,优化后的 α1,α2 ~\alpha_1,\alpha_2~满足目标条件的程度就越大。

计算 Ei ~E_i~的代码如下所示:

'''计算Ei'''
def _E(self,i):
	return self._h(i)-self.Y[i]

接着我们思考一个问题:我们该怎样确定优化后的 α ~\alpha~是朝着不满足目标条件程度减小的方向移动的呢?
我们回归到原始的问题:

α=argminα 12i=1nj=1nαiαjyiyjxiTxji=1nαii=1nαiyi=0,0αiC\begin{aligned} &求解目标:\alpha=\underset{\alpha}{argmin}~\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum_{i=1}^n\alpha_i\\ &约束条件:\sum_{i=1}^n\alpha_iy_i=0,0\le\alpha_i\le C \end{aligned}

我们求解目标是求解目标函数的局部最小值,那么我们不妨将 α1,α2 ~\alpha_1,\alpha_2~看作变量,其他 αi ~\alpha_i~看作常量,则:

α=argminα W(α1,α2)W(α1,α2)=Aα12+Bα22+Cα1α2+Dα1+Eα2+F\alpha=\underset{\alpha}{argmin}~W(\alpha_1,\alpha_2)\\ W(\alpha_1,\alpha_2)=A\alpha_1^2+B\alpha_2^2+C\alpha_1\alpha_2+D\alpha_1+E\alpha_2+F

代入 α1=(ξα2y2)y1 ~\alpha_1=(\xi-\alpha_2y_2)y_1~可得:

W(α2)=A[(ξα2y2)y1]2+Bα22+C(ξα2y2)y1α2+D(ξα2y2)y1+Eα2+F             =(A+BCy1y2)α22+(E2Ay2Dy1y2)α2+Aξ2+(C+D)ξ+F\begin{aligned} &W(\alpha_2)=A\big[(\xi-\alpha_2y_2)y_1\big]^2+B\alpha_2^2+C(\xi-\alpha_2y_2)y_1\alpha_2+D(\xi-\alpha_2y_2)y_1+E\alpha_2+F\\ &~~~~~~~~~~~~~=(A+B-Cy_1y_2)\alpha_2^2+(E-2Ay_2-Dy_1y_2)\alpha_2+A\xi^2+(C+D)\xi+F \end{aligned}

那么求 W ~W~的极小值,只需要简单得令 W(α2)α2=0 ~\frac{\partial W(\alpha_2)}{\partial \alpha_2}=0~即可,即:

2(A+BCy1y2)α2+(E2Ay2Dy1y2)=02(A+B-Cy_1y_2)\alpha_2+(E-2Ay_2-Dy_1y_2)=0

最终我们只需要保证我们优化后得 α ~\alpha~是使得目标函数变小的,就可以确定优化后的 α ~\alpha~是朝着不满足目标条件程度减小的方向移动。

5.2.3 SMO算法

 α1,α2 ~\alpha_1,\alpha_2~的更新

为了处理线性不可分的数据,我们引入了核函数:

α=argminα 12i=1nj=1nαiαjyiyjk(xi,xj)i=1nαii=1nαiyi=0,0αiC\begin{aligned} &求解目标:\alpha=\underset{\alpha}{argmin}~\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jk(x_i,x_j)-\sum_{i=1}^n\alpha_i\\ &约束条件:\sum_{i=1}^n\alpha_iy_i=0,0\le\alpha_i\le C \end{aligned}

核函数的实现代码如下所示,我们有多样的选择:

'''核函数'''
def kernel(self,xi,xj):
    if self._kernel=="linear":  #线性核函数
        return np.dot(xi,xj)
    if self._kernel=="poly":    #多项式核函数
        return (1+np.dot(xi,xj))**self.d
    if self._kernel=="gauss":   #高斯核函数
        return np.exp(-((xi-xj)**2).sum()/self.sigma**2)

优化前后 α ~\alpha~都必须满足 i=1nαiyi=0 ~\sum_{i=1}^n\alpha_iy_i=0~,即:

α1newy1+α2newy2=α1oldy1+α2oldy2=ξ\alpha_1^{new}y_1+\alpha_2^{new}y_2=\alpha_1^{old}y_1+\alpha_2^{old}y_2=\xi

在更新 α1,α2 ~\alpha_1,\alpha_2~时,有:

α1=(ξα2y2)y10α1C,0α2C\alpha_1=(\xi-\alpha_2y_2)y_1\\ 0\le\alpha_1\le C,0\le\alpha_2\le C

将上述两个信息结合我们可以进一步得缩小 α2 ~\alpha_2~的范围:我们将 α2 ~\alpha_2~的上界与下界定义为 H,L ~H,L~

Lα2H\begin{aligned} &L\le\alpha_2\le H \end{aligned}

 α1y1+α2y2=ξ ~\alpha_1y_1+\alpha_2y_2=\xi~看作一个方程,显然几何上这是一条直线,结合取值范围我们可以绘制出图像:

(1) y1=y2 ~y_1\not=y_2~时:有两种情况: α1α2=ξ ~\alpha_1-\alpha_2=\xi~ α1α2=ξ ~\alpha_1-\alpha_2=-\xi~

0α2C0α1=α2+ξCξα2Cξ0α1=α2ξC   ξα2C+ξ\begin{aligned} &0\le\alpha_2\le C\\ &0\le\alpha_1=\alpha_2+\xi\le C\rightarrow -\xi\le\alpha_2\le C-\xi\\ &0\le \alpha_1=\alpha_2-\xi\le C\rightarrow ~~~\xi\le\alpha_2\le C+\xi\\ \end{aligned}

 α1α2=ξ ~\alpha_1-\alpha_2=\xi~时:

 L=max(0,ξ)=max(0,α2α1) H=min(C,Cξ)=min(C,C+α2α1)\begin{aligned} &~L=\max(0,-\xi)=\max(0,\alpha_2-\alpha_1)\\ &~H=\min(C,C-\xi)=\min(C,C+\alpha_2-\alpha_1) \end{aligned}

 α1α2=ξ ~\alpha_1-\alpha_2=-\xi~时:

L=max(0,ξ)=max(0,α2α1)H=min(C,C+ξ)=min(C,C+α2α1)\begin{aligned} &L=\max(0,\xi)=\max(0,\alpha_2-\alpha_1)\\ &H=\min(C,C+\xi)=\min(C,C+\alpha_2-\alpha_1) \end{aligned}

可以发现两种情况所得的上下界求解公式相同。

(2) y1=y2 ~y_1=y_2~时,有两种情况: α1+α2=ξ ~\alpha_1+\alpha_2=\xi~ α1+α2=ξ ~\alpha_1+\alpha_2=-\xi~,推导过程与 y1=y2 ~y_1\not=y_2~时的完全相同:

0α2C0α1=  ξα2C    ξCα2ξ0α1=ξα2CξCα2ξ\begin{aligned} &0\le\alpha_2\le C\\ &0\le\alpha_1=~~\xi-\alpha_2\le C~\rightarrow ~~~\xi-C\le\alpha_2\le\xi\\ &0\le\alpha_1=-\xi-\alpha_2\le C\rightarrow-\xi-C\le\alpha_2\le-\xi \end{aligned}

 α1+α2=ξ ~\alpha_1+\alpha_2=\xi~时:

L=max(0,ξC)=max(0,α1+α2C)H=min(C,ξ)=min(C,α1+α2)\begin{aligned} &L=\max(0,\xi-C)=\max(0,\alpha_1+\alpha_2-C)\\ &H=\min(C,\xi)=\min(C,\alpha_1+\alpha_2) \end{aligned}

 α1+α2=ξ ~\alpha_1+\alpha_2=-\xi~时:

L=max(0,ξC)=max(0,α1+α2C)H=min(C,ξ)=min(C,α1+α2)\begin{aligned} &L=\max(0,-\xi-C)=\max(0,\alpha_1+\alpha_2-C)\\ &H=\min(C,-\xi)=\min(C,\alpha_1+\alpha_2) \end{aligned}

两种情况所得的上下界求解公式也完全相同。

综上,上下界的计算通式如下:

{L=max(0,α2α1)        ,H=min(C,C+α2α1)    if y1=y2L=max(0,α1+α2C),H=min(C,α1+α2)            if y1=y2\left\{ \begin{aligned} &L=\max(0,\alpha_2-\alpha_1)~~~~~~~~,H=\min(C,C+\alpha_2-\alpha_1)~~~~\text{if }y_1\not=y_2\\ &L=\max(0,\alpha_1+\alpha_2-C),H=\min(C,\alpha_1+\alpha_2)~~~~~~~~~~~~\text{if }y_1=y_2 \end{aligned} \right.

接着我们要对α1,α2\alpha_1,\alpha_2进行更新:

α=argminα 12i=1nj=1nαiαjyiyjk(xi,xj)i=1nαi=argminα W(α1,α2)\alpha=\underset{\alpha}{argmin}~\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jk(x_i,x_j)-\sum_{i=1}^n\alpha_i=\underset{\alpha}{argmin}~W(\alpha_1,\alpha_2)

 α1,α2 ~\alpha_1,\alpha_2~视为变量,其余 αi ~\alpha_i~视为常量,则有:核矩阵 Kij=k(xi,xj) ~K_{ij}=k(x_i,x_j)~

W(α1,α2)=12K11α12+12K22α22+K12y1y2α1α2+y1α1i=3nαiyiKi1+y2α2i=3nαiyiKi2α1α2i=3nαiW(\alpha_1,\alpha_2)=\frac12K_{11}\alpha_1^2+\frac12K_{22}\alpha_2^2+K_{12}y_1y_2\alpha_1\alpha_2+y_1\alpha_1\sum_{i=3}^{n}\alpha_iy_iK_{i1}+y_2\alpha_2\sum_{i=3}^{n}\alpha_iy_iK_{i2}-\alpha_1-\alpha_2-\sum_{i=3}^n\alpha_i

我们定义: vj=i=3nαiyiKij ~v_j=\sum_{i=3}^n\alpha_iy_iK_{ij}~ Constant=i=3nαi ~\text{Constant}=\sum_{i=3}^n\alpha_i~,则有:

W(α1,α2)=12K11α12+12K22α22+K12y1y2α1α2+y1α1v1+y2α2v2α1α2ConstantW(\alpha_1,\alpha_2)=\frac12K_{11}\alpha_1^2+\frac12K_{22}\alpha_2^2+K_{12}y_1y_2\alpha_1\alpha_2+y_1\alpha_1v_1+y_2\alpha_2v_2-\alpha_1-\alpha_2-\text{Constant}

代入 α1=(ξy2α2)y1 ~\alpha_1=(\xi-y_2\alpha_2)y_1~可得:

W(α2)=12K11(ξy2α2)2+12K22α22+K12y2(ξy2α2)α2+v1(ξy2α2)+y2v2α2(ξy2α2)y1α2Constant            =12(K11+K222K12)α22+(K12ξy2K11ξy2v1y2+v2y2+y2y11)α2+12K11ξ2+v1ξξy1Constant\begin{aligned} &W(\alpha_2)=\frac12K_{11}(\xi-y_2\alpha_2)^2+\frac12K_{22}\alpha_2^2+K_{12}y_2(\xi-y_2\alpha_2)\alpha_2+v_1(\xi-y_2\alpha_2)+y_2v_2\alpha_2-(\xi-y_2\alpha_2)y_1-\alpha_2-\text{Constant}\\ &~~~~~~~~~~~~=\frac12(K_{11}+K_{22}-2K_{12})\alpha_2^2+(K_{12}\xi y_2-K_{11}\xi y_2-v_1y_2+v_2y_2+y_2y_1-1)\alpha_2+\frac12K_{11}\xi^2+v_1\xi-\xi y_1-\text{Constant} \end{aligned}

 W ~W~进行求导可得:

W(α2)α2=(K11+K222K12)α2+(K12ξy2K11ξy2v1y2+v2y2+y2y11)\frac{\partial W(\alpha_2)}{\partial \alpha_2}=(K_{11}+K_{22}-2K_{12})\alpha_2+(K_{12}\xi y_2-K_{11}\xi y_2-v_1y_2+v_2y_2+y_2y_1-1)

我们令导数为0即可求得我们所期望更新的 α2 ~\alpha_2~

(K11+K222K12)α2=(y2y1+K11ξK12ξ+v1v2)y2(K_{11}+K_{22}-2K_{12})\alpha_2=(y_2-y_1+K_{11}\xi-K_{12}\xi+v_1-v_2)y_2

我们可以不计算 ξ ~\xi~,通过 α2old ~\alpha_2^{old}~更新 α2new ~\alpha_2^{new}~

vj=i=3nαiyiKij=h(xj)i=12αiyik(xi,xj)bv1=h(x1)α1y1K11α2y2K21bv2=h(x2)α1y1K12α2y2K22b\begin{aligned} &v_j=\sum_{i=3}^n\alpha_iy_iK_{ij}=h(x_j)-\sum_{i=1}^2\alpha_iy_ik(x_i,x_j)-b\\ &v_1=h(x_1)-\alpha_1y_1K_{11}-\alpha_2y_2K_{21}-b\\ &v_2=h(x_2)-\alpha_1y_1K_{12}-\alpha_2y_2K_{22}-b \end{aligned}

由此可得:

v1v2=h(x1)h(x2)(y1K11y1K12)α1(y2K21y2K22)α2v_1-v_2=h(x_1)-h(x_2)-(y_1K_{11}-y_1K_{12})\alpha_1-(y_2K_{21}-y_2K_{22})\alpha_2

代入 α1=(ξy2α2)y1 ~\alpha_1=(\xi-y_2\alpha_2)y_1~可得:

v1v2=h(x1)h(x2)(K11K12)(ξy2α2)(y2K21y2K22)α2              =h(x1)h(x2)+(K11+K222K12)y2α2+(K12K11)ξ\begin{aligned} &v_1-v_2=h(x_1)-h(x_2)-(K_{11}-K_{12})(\xi-y_2\alpha_2)-(y_2K_{21}-y_2K_{22})\alpha_2\\ &~~~~~~~~~~~~~~=h(x_1)-h(x_2)+(K_{11}+K_{22}-2K_{12})y_2\alpha_2+(K_{12}-K_{11})\xi \end{aligned}

 v1v2 ~v_1-v_2~代入导数为0的式子可得:

(K11+K222K12)α2new=([h(x1)y1][h(x2)y2])y2+(K11+K222K12)α2old(K_{11}+K_{22}-2K_{12})\alpha_2^{new}=(\big[h(x_1)-y_1\big]-\big[h(x_2)-y_2\big])y_2+(K_{11}+K_{22}-2K_{12})\alpha_2^{old}

根据我们之前设置的误差:

Ei=h(xi)yiE_i=h(x_i)-y_i

代入可得:

α2new=α2old+(E1E2)y2K11+K222K12\alpha_2^{new}=\alpha_2^{old}+\frac{(E_1-E_2)y_2}{K_{11}+K_{22}-2K_{12}}

综上我们终于得到了 α2 ~\alpha_2~更新的递归式,但是不要忘记了约束条件,于是我们将该 α2 ~\alpha_2~记作未经修剪的(unclipped): α2new,unc ~\alpha_2^{new,unc}~

前面我们已经求出了 α2 ~\alpha_2~上下界应该满足的条件,即:

{L=max(0,α2α1)        ,H=min(C,C+α2α1)    if y1=y2L=max(0,α1+α2C),H=min(C,α1+α2)            if y1=y2\left\{ \begin{aligned} &L=\max(0,\alpha_2-\alpha_1)~~~~~~~~,H=\min(C,C+\alpha_2-\alpha_1)~~~~\text{if }y_1\not=y_2\\ &L=\max(0,\alpha_1+\alpha_2-C),H=\min(C,\alpha_1+\alpha_2)~~~~~~~~~~~~\text{if }y_1=y_2 \end{aligned} \right.

所以可以得到修剪后的 α2 ~\alpha_2~

α2new={     H      , α2new,unc >H α2new,unc , Lα2new,unc H     L      , α2new,unc <L\alpha_2^{new}=\left\{ \begin{aligned} &~~~~~H~~~~~~,~\alpha_2^{new,unc}~>H\\ &~\alpha_2^{new,unc}~,~L\le\alpha_2^{new,unc}~\le H\\ &~~~~~L~~~~~~,~\alpha_2^{new,unc}~<L \end{aligned} \right.

选取修剪后的 α2 ~\alpha_2~的代码如下所示:

'''修剪alpha'''
def _compare(self,_alpha,L,H):
    '''
    L<=alpha<=H时,返回alpha,否则返回H或L
    '''
    if _alpha > H:
        return H
    elif _alpha < L:
        return L
    else:
        return _alpha

我们还知道:

α1newy1+α2newy2=α1oldy1+α2oldy2\alpha_1^{new}y_1+\alpha_2^{new}y_2=\alpha_1^{old}y_1+\alpha_2^{old}y_2

由此我们也可以得到 α1 ~\alpha_1~的更新公式:

α1new=α1old+y1y2(α2oldα2new)\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})

 b ~b~的更新

我们每更新一次 α ~\alpha~后,都要对 b ~b~进行一次更新,因为这关系到 h(x) ~h(x)~的计算,进而关系到 Ei ~E_i~的计算。

①当 0<α1new<C ~0<\alpha_1^{new}<C~时, x1 ~x_1~为支持向量,则有:

y1(wTx1+b1)=1b1new=y1i=1nαiyiKi1=y1v1α1newy1K11α2newy2K12v1=h(x1)α1oldy1K11α2oldy2K21boldy_1(w^Tx_1+b_1)=1\\ b_1^{new}=y_1-\sum_{i=1}^n\alpha_iy_iK_{i1}=y_1-v_1-\alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_2K_{12}\\ v_1=h(x_1)-\alpha_1^{old}y_1K_{11}-\alpha_2^{old}y_2K_{21}-b^{old}

则我们可以得到:

b1new=boldE1+(α1oldα1new)y1K11+(α2oldα2new)y2K21b_1^{new}=b^{old}-E_1+(\alpha_1^{old}-\alpha_1^{new})y_1K_{11}+(\alpha_2^{old}-\alpha_2^{new})y_2K_{21}

②当 0<α2new<C ~0<\alpha_2^{new}<C~时, x2 ~x_2~为支持向量,同理有:

b2new=boldE2+(α1oldα1new)y1K12+(α2oldα2new)y2K22b_2^{new}=b^{old}-E_2+(\alpha_1^{old}-\alpha_1^{new})y_1K_{12}+(\alpha_2^{old}-\alpha_2^{new})y_2K_{22}

③当 α1,α2 ~\alpha_1,\alpha_2~都不满足上述情况时,有:

bnew=b1new+b2new2b^{new}=\frac{b_1^{new}+b_2^{new}}2

综上我们可以得到更新 b ~b~的通式:

bnew={      b1new       ,0<α1new<C      b2new       , 0<α2new<Cb1new+b2new2,otherwiseb^{new}=\left\{ \begin{aligned} &~~~~~~b_1^{new}~~~~~~~,0<\alpha_1^{new}<C\\ &~~~~~~b_2^{new}~~~~~~~,~0<\alpha_2^{new}<C\\ &\frac{b_1^{new}+b_2^{new}}2,\text{otherwise} \end{aligned} \right.

 α1,α2 ~\alpha_1,\alpha_2~的选取

有了上述更新的方法,我们只剩下一个问题,就是如何选择 α1,α2 ~\alpha_1,\alpha_2~,选择方法如下:

①选取 α1 ~\alpha_1~:遍历所有 αi ~\alpha_i~,把第一个不满足 KKT ~KKT~条件的作为 α1 ~\alpha_1~

②选取 α2 ~\alpha_2~:在所有不违反 KKT ~KKT~条件的 αi ~\alpha_i~中选取 E1E2 ~|E_1-E_2|~最大的作为 α2 ~\alpha_2~

根据上述规则我们可以得到选取 α1,α2 ~\alpha_1,\alpha_2~的代码:

'''选取α1,α2'''
def _init_alpha(self):
    '''
    选取一对alpha
    '''
    index_list=[i for i in range(self.n) if 0<self.alpha[i]<self.C]        	#支持向量的alpha索引列表
    non_satisfy_list = [i for i in range(self.n) if i not in index_list]   	#其他的alpha索引列表
    index_list.extend(non_satisfy_list)	#优先考虑不满足kkt条件的支持向量对应的alpha
    for i in index_list:    #遍历所有的alpha
        if self._KKT(i):    #满足KKT条件,跳过
            continue
        E1=self._E(i)
        #找到使得|E1-E2|最大的alpha
        if E1>=0:   #估计值大于实际值
            j = min(range(self.n), key=lambda x: self.E[x])
        else:       #估计值小于实际值
            j = max(range(self.n), key=lambda x: self.E[x])
        return i,j

我们知道 KKT ~KKT~条件为:

{yih(xi)1    αi=0    ,xiyih(xi)=10<αi<C,xiyih(xi)1    αi=C   ,xi\begin{aligned} &\left\{ \begin{aligned} &y_i\cdot h(x_i)\ge1\rightarrow ~~~~\alpha_i=0~~~~,x_i在边界内\\ &y_i\cdot h(x_i)=1\rightarrow 0<\alpha_i< C,x_i在边界上,是支持向量\\ &y_i\cdot h(x_i)\le1\rightarrow ~~~~\alpha_i=C~~~,x_i在两条边界之间 \end{aligned} \right. \end{aligned}

那么违反 KKT ~KKT~条件的情况为:

 yih(xi)>1  αi>0 yih(xi)=1  αi=0C yih(xi)<1  αi<C\begin{aligned} &①~y_ih(x_i)>1~但~\alpha_i>0\\ &②~y_ih(x_i)=1~但~\alpha_i=0或C\\ &③~y_ih(x_i)<1~但~\alpha_i<C\\ \end{aligned}

为了便于判断我们可以进一步得进行处理:

yih(xi)1=yiEiy_ih(x_i)-1=y_iE_i

那么违反 KKT ~KKT~条件的情况为:

 yiEi<0  αi<C yiEi>0  αi>0\begin{aligned} &①~y_iE_i<0~但~\alpha_i<C\\ &②~y_iE_i>0~但~\alpha_i>0 \end{aligned}

但在实际中 KKT ~KKT~条件是极其苛刻的,我们通过引入容错率 tol ~tol~来缓解, tol ~tol~一般取值为 0.0001 ~0.0001~

 yiEi<tol  αi<C yiEi>tol  αi>0\begin{aligned} &①~y_iE_i<tol~但~\alpha_i<C\\ &②~y_iE_i>tol~但~\alpha_i>0 \end{aligned}

由此我们可以定义 KKT ~KKT~条件的相关代码:

'''kkt条件'''
def _KKT(self,i):
    '''
        :param i: alpha下标
        :return: 满足KKT条件返回True,否则返回False
        '''
    y_Ei=self.Y[i]*self._E(i)
    if y_Ei<self.tol and self.alpha[i]<self.C:
        return False
    elif y_Ei>self.tol and self.alpha[i]>0:
        return False
    else:
        return True

综上,我们可以实现 SMO ~SMO~算法+核函数的高效的支持向量机模型:

'''屏蔽warning'''
import warnings
warnings.filterwarnings("ignore")
'''导入重要的库'''
import numpy as np
import pandas as pd
import random
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

'''处理二分类问题的支持向量机'''
class SVM(object):
    '''初始化'''
    def __init__(self,max_iter=100,kernel='linear',C=100,sigma=1,tol=0.0001):
        self.max_iter=max_iter  #最大训练轮数
        self._kernel=kernel     #核函数的选择:'linear'线性核函数,'poly'多项式核函数,'gauss'高斯核函数
        self.C=C                #惩罚系数
        self.sigma=sigma        #高斯核函数参数sigma
        self.tol=tol            #KKT条件容错率
    '''初始化参数'''
    def _init_args(self,features,labels):
        self.n,self.d=features.shape    #训练集大小n,特征向量维度d
        self.X=features                 #训练集的特征向量
        self.Y=labels                   #训练集的标签
        self.b=0.0                      #模型的偏差项
        self.alpha=np.zeros(self.n)     #模型参数α
        '''E存储对于每个结点的预测误差'''
        self.E=[self._E(i) for i in range(self.n)]  #预先计算并存储可以极大提高算法速度
    '''kkt条件'''
    def _KKT(self,i):
        '''
        :param i: alpha下标
        :return: 满足KKT条件返回True,否则返回False
        '''
        y_Ei=self.Y[i]*self._E(i)
        if y_Ei<self.tol and self.alpha[i]<self.C:
            return False
        elif y_Ei>self.tol and self.alpha[i]>0:
            return False
        else:
            return True
    '''模型计算值h(xi)'''
    def _h(self,i):
        r=self.b
        for j in range(self.n):
            r+=self.alpha[j]*self.Y[j]*self.kernel(self.X[j],self.X[i])
        return r
    '''核函数'''
    def kernel(self,xi,xj):
        if self._kernel=="linear":  #线性核函数
            return np.dot(xi,xj)
        if self._kernel=="poly":    #多项式核函数
            return (1+np.dot(xi,xj))**self.d
        if self._kernel=="gauss":   #高斯核函数
            return np.exp(-((xi-xj)**2).sum()/self.sigma**2)
    '''计算Ei'''
    def _E(self,i):
        return self._h(i)-self.Y[i]
    '''选取α1,α2'''
    def _init_alpha(self):
        '''
        选取一对alpha
        '''
        index_list=[i for i in range(self.n) if 0<self.alpha[i]<self.C]        	#支持向量的alpha索引列表
        non_satisfy_list = [i for i in range(self.n) if i not in index_list]   	#其他的alpha索引列表
        index_list.extend(non_satisfy_list)	#优先考虑不满足kkt条件的支持向量对应的alpha
        for i in index_list:    #遍历所有的alpha
            if self._KKT(i):    #满足KKT条件,跳过
                continue
            E1=self._E(i)
            #找到使得|E1-E2|最大的alpha
            # if E1>=0:   #估计值大于实际值
            #     j = min(range(self.n), key=lambda x: self.E[x])
            # else:       #估计值小于实际值
            #     j = max(range(self.n), key=lambda x: self.E[x])
            j=max(range(self.n),key=lambda x:abs(E1-self.E[x]))
            return i,j
    '''修剪alpha'''
    def _compare(self,_alpha,L,H):
        '''
        L<=alpha<=H时,返回alpha,否则返回H或L
        '''
        if _alpha > H:
            return H
        elif _alpha < L:
            return L
        else:
            return _alpha
    '''训练模型'''
    def fit(self,X,Y):
        self._init_args(X,Y)            #初始化参数
        for t in range(self.max_iter):  #进行最多max_iter轮训练
            print("====第{}轮====".format(t+1))
            i1,i2=self._init_alpha()    #选择一对alpha
            '''计算alpha[i2]的上下界'''
            if self.Y[i1]==self.Y[i2]:
                L=max(0,self.alpha[i1]+self.alpha[i2]-self.C)
                H=min(self.C,self.alpha[i1]+self.alpha[i2])
            else:
                L = max(0, self.alpha[i2]-self.alpha[i1])
                H = min(self.C, self.C+self.alpha[i2]-self.alpha[i1])
            E1 = self.E[i1]
            E2 = self.E[i2]
            '''计算更新alpha[i2]用到的底数K11+K22-2*K12'''
            eta = self.kernel(self.X[i1], self.X[i1]) + self.kernel(self.X[i2], self.X[i2]) \
                  - 2*self.kernel(self.X[i1], self.X[i2])
            if eta==0:  #不更新,进行下一轮训练
                print("eta=0")
                continue
            '''计算alpha新值'''
            alpha2_new_unc = self.alpha[i2] + self.Y[i2] * (E1 - E2) / eta  #未修剪的alpha2
            alpha2_new = self._compare(alpha2_new_unc, L, H)                #计算修剪后的alpha2
            alpha1_new = self.alpha[i1] + self.Y[i1] * self.Y[i2] * (self.alpha[i2] - alpha2_new)
            '''计算b新值'''
            b1_new = self.b-E1 - self.Y[i1] * self.kernel(self.X[i1], self.X[i1]) * (alpha1_new-self.alpha[i1]) \
                     - self.Y[i2] * self.kernel(self.X[i2], self.X[i1]) * (alpha2_new-self.alpha[i2])
            b2_new = self.b-E2 - self.Y[i1] * self.kernel(self.X[i1], self.X[i2]) * (alpha1_new-self.alpha[i1]) \
                     - self.Y[i2] * self.kernel(self.X[i2], self.X[i2]) * (alpha2_new-self.alpha[i2])
            if 0 < alpha1_new < self.C:
                b_new = b1_new
            elif 0 < alpha2_new < self.C:
                b_new = b2_new
            else:
                b_new = (b1_new + b2_new) / 2
            '''更新值'''
            self.alpha[i1] = alpha1_new
            self.alpha[i2] = alpha2_new
            self.b = b_new
            print("L=",L,"H=",H)
            print("alpha2_new_unc=",alpha2_new_unc)
            print("alpha[{}]_new=".format(i1),alpha1_new)
            print("alpha[{}]_new=".format(i2),alpha2_new)
            print("b_new=",b_new)
            self.E[i1] = self._E(i1)
            self.E[i2] = self._E(i2)
    '''进行预测'''
    def predict(self, X_test):
        y_pred=[]
        for x_t in X_test:
            r = self.b
            for i in range(self.n):
                r += self.alpha[i] * self.Y[i] * self.kernel(x_t, self.X[i])
            y_pred.append(1 if r > 0 else -1)
        return np.array(y_pred)
    '''计算权重w'''
    def _weight(self):
        yx = self.Y.reshape(-1, 1)*self.X
        self.w = np.dot(yx.T, self.alpha)
        return self.w
    '''求支持向量'''
    def support_vector(self):
        vector=[]
        for i in range(self.n):
            if (self.alpha[i]>0):
                vector.append(self.X[i])
        return np.array(vector)
    '''决策函数值'''
    def decision_function(self,x):
        r=self.b
        for j in range(self.n):
            r+=self.alpha[j]*self.Y[j]*self.kernel(self.X[j],x)
        return r

'''读取数据'''
df=pd.read_csv("data/moons_data.csv")
target=np.array(list(df['label']))
target=np.where(target==0,-1,1) #修正标签{0,1}->{-1,+1}
df.drop("label",axis=1,inplace=True)
data=df.values
'''数据集分割'''
X_train,X_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state=10)#选取20%的数据作为测试集
'''初始化模型'''
params={
    "max_iter":100,
    "kernel":"gauss",
    "C":100,
    "sigma":0.39,
    "tol":0.0001
}
svm=SVM(**params)   #高斯核的支持向量机
'''模型训练与预测'''
svm.fit(X_train,y_train)
y_pred=svm.predict(X_test)
print(accuracy_score(y_test,y_pred))

为了避免随机性影响模型评估,我们使用固定的数据集,并且固定得划分训练集与测试集,用到的测试集如下图所示:

我们可以发现对于上述线性不可分的数据,我们使用高斯核,通过调整参数达到了0.99的正确率,效果很好。

5.3 可视化

我们可以通过如下代码实现对决策边界的可视化:

def draw_hyperplane(svm,data,target):
    '''
    :param svm: 支持向量机模型
    :param data: 用到的特征向量数据集
    :param target: 响应的标签数据集
    :return: 绘制出的决策边界
    '''
    plt.figure(figsize=(7,4),dpi=100).add_subplot() #初始化画板
    plt.scatter(data[:,0],data[:,1],c=target)       #绘制数据分布散点
    '''获取坐标轴范围'''
    ax = plt.gca()  # 获取坐标轴
    xlim = ax.get_xlim()  # 获得Axes的 x坐标范围
    ylim = ax.get_ylim()  # 获得Axes的 y坐标范围
    '''创建等差数列'''
    xx = np.linspace(xlim[0], xlim[1], 40)
    yy = np.linspace(ylim[0], ylim[1], 40)
    '''生成网格点坐标矩阵'''
    YY, XX = np.meshgrid(yy, xx)
    xy = np.vstack([XX.ravel(), YY.ravel()]).T  #xy中存储了整个坐标系中的网格点坐标
    Z=np.array([svm.decision_function(x_t) for x_t in xy]).reshape(XX.shape)
    '''绘制决策边界和分隔'''
    ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], alpha=0.5,linestyles=['--', '-', '--'])
    '''填充等高线不同区域的颜色'''
    plt.contourf(XX,YY,Z,10,cmap="Blues_r",alpha=0.75)
    '''添加颜色条说明'''
    plt.colorbar(shrink=0.8)
    plt.show()

我们可以观察不同的核函数得到的决策边界:
①高斯核函数:

②线性核函数:

③多项式核函数:

我们可以发现对于线性不可分数据高斯核函数的效果非常好。

5.4 调库实现模型

当然sklearn也提供了可以利用核函数的支持向量机,主要用到的函数为SVC,其函数原型为:

SVC(*, C=1.0, kernel='rbf', degree=3, gamma='scale', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape='ovr', break_ties=False, random_state=None)

其中一些重要的参数为:
C:软间隔的惩罚系数
kernel:用到的核函数:线性核:”linear“,多项式核:”poly“,高斯核:”rbf“,sigmoid核:”sigmoid“,预计算:”precomputed“
degree:多项式核的指数
gamma:”poly“,”rbf“,”sigmoid“核的系数选择方式
● if gamma='scale' (default) is passed then it uses 1 / (n_features * X.var()) as value of gamma,
● if ‘auto’, uses 1 / n_features.

更多参数作用请详见官方说明文档:sklearn.svm.SVC

'''屏蔽warning'''
import warnings
warnings.filterwarnings("ignore")
'''导入重要的库'''
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

def draw_hyperplane(svm,data,target):
    '''
    :param svm: 支持向量机模型
    :param data: 用到的特征向量数据集
    :param target: 响应的标签数据集
    :return: 绘制出的决策边界
    '''
    plt.figure(figsize=(7,4),dpi=100).add_subplot() #初始化画板
    plt.scatter(data[:,0],data[:,1],c=target)       #绘制数据分布散点
    '''获取坐标轴范围'''
    ax = plt.gca()  # 获取坐标轴
    xlim = ax.get_xlim()  # 获得Axes的 x坐标范围
    ylim = ax.get_ylim()  # 获得Axes的 y坐标范围
    '''创建等差数列'''
    xx = np.linspace(xlim[0], xlim[1], 40)
    yy = np.linspace(ylim[0], ylim[1], 40)
    '''生成网格点坐标矩阵'''
    YY, XX = np.meshgrid(yy, xx)
    xy = np.vstack([XX.ravel(), YY.ravel()]).T  #xy中存储了整个坐标系中的网格点坐标
    Z=svm.decision_function(xy).reshape(XX.shape)
    '''绘制决策边界和分隔'''
    ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], alpha=0.5,linestyles=['--', '-', '--'])
    '''填充等高线不同区域的颜色'''
    plt.contourf(XX,YY,Z,10,cmap="Blues_r",alpha=0.75)
    '''添加颜色条说明'''
    plt.colorbar(shrink=0.8)
    plt.show()

'''读取数据'''
df=pd.read_csv("data/moons_data.csv")
target=np.array(list(df['label']))
target=np.where(target==0,-1,1) #修正标签{0,1}->{-1,+1}
df.drop("label",axis=1,inplace=True)
data=df.values
'''数据集分割'''
X_train,X_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state=10)#选取20%的数据作为测试集
'''模型参数'''
params={
    "C":1.0,
    "kernel":'rbf',
    "degree":3,
    "gamma":'scale'
}
'''初始化模型'''
svm=SVC(**params)
svm.fit(X_train,y_train)
y_pred=svm.predict(X_test)
print(accuracy_score(y_test,y_pred))
'''可视化'''
draw_hyperplane(svm,data,target)

注意可视化处作了部分调整:

Z=svm.decision_function(xy).reshape(XX.shape)

最终我们得到了0.995的准确率,决策边界如下图所示:

对比之下不难发现我们的模型虽然正确率也很高,但是存在一定程度的过拟合,调库所得的决策边界更好一些。