Perceptron

Linear Classifiers

我们在上次的Note19中提及到了Naive Bayes中的提取feature的思想,我们在这里尝试把一个数据点的所有特征提取出来，提取成为一个向量的形式

f(x) = [f1(x), f2(x), ..., fn(x)]

与之对应的，每个feature还有一个权重

w = [w1, w2, ..., wn]

线性分类器的基本思想是利用特征的线性组合来进行分类，我们把这个值叫做~~激活值~~激活函数之前的值即activation。具体公式如下

activation_{w} (x) = h_{w} (x) = i \sum w_{i} f_{i} (x) = w^{⊤} f (x) = w \cdot f (x)

我们来着重看一下 $h_{w} (x)$ 这个值：如果我们只有两个lable，可以回忆一下之前提及到的垃圾邮件的例子，这就是只有两个标签—只有ham和spam。

这时候 $h_{w} (x)$ 如果为正，我们就把数据点标记为正类。
如果 $h_{w} (x)$ 值为负，我们就把数据点标记为负类

Decision Boundary

我们用数学的角度来看一下 $h_{w} (x)$ 的值：

h_{w} (x) = w \cdot f (x) = ∥ w ∥ ∥ f (x) ∥ cos (θ)

看最后一串，决定 $h_{w} (x)$ 值正负的是cosθ，因为两个向量的模是正的。也就是说

classify (x) = ⎩ ⎨ ⎧ + - if θ < \frac{π}{2} if θ > \frac{π}{2}

我们已知了向量w，那我们是不是可以画一条与向量w垂直的虚线，任何位于这条线上的特征向量其 $h_{w} (x)$ 的值都为0，即满足式子 $w^{T} f (x) = 0$ ,我们把这条线叫做决策边界即Decision Boundary 我们可以根据决策边界来判断 $h_{w} (x)$ 的值

Binary Perceptron

二分类感知机是一个简单的线性分类器，它的目的是为了找到一个权重向量w让训练集中的样本都可以正确分类。

Perceptron Algorithm

1. Initialize weights: w = 0
2. For each training example (x, y*):
   a. Compute prediction:
      y = classify(x)
   b. If y == y*, do nothing
   c. If y != y*, update weights:
      w ← w + y* f(x)
3. Repeat until all samples are classified correctly in one pass

其中：

y*是真实的lable
y是模型预测的lable
f(x)是样本特征向量

算法正确性验证

核心的更新规则就是 $w \leftarrow w + y^{*} f (x)$ 1.我们假设 $y^{*} = 1$ ， $y = - 1$ 。即原本为正类的数据点被分错分到负类里去了 2.我们可以推断的是：当前的 $h_{w} (x)$ 是偏小的，我们期望是让 $h_{w} (x)$ 变大 3.更新后的权重为

w^{'} = w + f (x)

4.更新后的激活值为

h_{w^{'}} (x) = (w + f (x))^{T} f (x) = w^{T} f (x) + f (x)^{T} f (x) = h_{w} (x) + f (x)^{T} f (x)

5.因为

f (x)^{T} f (x) \geq 0

即激活值会变大，这也就表明了这种更新法则是符合我们的预期—让 $h_{w} (x)$ 变大

Bias

如果我们的决策边界模型只有 $w^{T} f (x)$ ,那么我们的决策边界就必须经过原点，这非常限制模型的能力，因为很多不同lable的数据点虽然能被一条直线分开，但那条直线不一定经过原点。我们就参考着一次函数的样式加入了bias term,让它变成

w^{T} f (x) + b = 0

实现方法通常是给每个特征向量额外加一个恒等于1的feature，然后通过控制权重w来控制大小，这样模型仍然可以写成点积的形式:

h_{w} (x) = w^{T} f (x)

Multiclass Perceptron

多个类别的和binary非常类似，如果有K个lable，那么就有K个权重。与二分类感知机对应的是，二分类感知机只有一个权重，因为可以用正负来区别两个lable. 对于输入样本，计算它的每个lable的score:

score_{k} = w_{k}^{T} f (x)

选择分数最高的lable:

\overset{y}{^} = ar g k max w_{k}^{T} f (x)

多分类感知机更新规则

同样的：

y*是真实的并且正确的lable
y是被错误预测的lable
f(x)是样本特征向量

那么就可以得到：

w_{y^{*}} w_{y} \leftarrow w_{y^{*}} + f (x) \leftarrow w_{y} - f (x)

给正确类别的权重加上这个样本，给错误类别减去这个样本

Linear Regression

和前面不同的是:

Regression预测的是连续的数值，比如房价温度销量等等
Classification预测的是类别和前面相同的是：
模型相同，即权重和特征向量的格式相同特征向量是

x = [1, x_{1}, x_{2}, \dots, x_{n}]

对应的权重也是和之前的格式，注意特征向量的第一项1是bias term，那么我们可以得到 $h_{w} (x)$ 为：

h_{w} (x) = w_{0} + w_{1} x_{1} + w_{2} x_{2} + \dots + w_{n} x_{n} = w^{T} x

L2 Loss

训练线性回归时，我们希望预测值接近真实值对于第 j 个样本：

error_{j} = y_{j} - h_{w} (x_{j})

L2 Loss是误差平方:

(y_{j} - h_{w} (x_{j}))^{2}

整个训练集上的loss：

L oss (h_{w}) = \frac{1}{2} j = 1 \sum N (y_{j} - h_{w} (x_{j}))^{2}

前面加上1/2是为了求导时抵消平方项前面的2，让整体公式更加整洁

Matrix Form矩阵形式

将所有的训练样本堆起来:

y = y_{1} y_{2} ⋮ y_{N}

设计矩阵：

X = 11 ⋮ 1 x_{1}^{1} x_{1}^{2} ⋮ x_{1}^{N} \dots \dots ⋱ \dots x_{n}^{1} x_{n}^{2} ⋮ x_{n}^{N}

权重为:

w = w_{0} w_{1} ⋮ w_{n}

那么loss可以写成：

Loss (h_{w}) = \frac{1}{2} ∥ y - Xw ∥_{2}^{2}

线性回归最重要的一个特点是它有闭式解( closed-form solution ) 我们对loss求梯度:

\nabla_{w} \frac{1}{2} ∥ y - Xw ∥_{2}^{2} = - X^{T} y + X^{T} Xw

令梯度为0:

X^{T} Xw = X^{T} y

如果 $X^{T} X$ 可逆的话，那么就可以得到:

\hat{w} = (X^{⊤} X)^{- 1} X^{⊤} y

Logistic Regression

Logistic Regression用logistic function把线性模型输出转成概率，需要注意的是

Logistic Regression 名字里有 regression，但它主要用于 classification

Logistic Function / Sigmoid Function

Logistic Function:

g (z) = \frac{1}{1 + e ^{- z}}

其中

z = w^{T} x

h_{w} (x) = \frac{1}{1 + e ^{- w^{T} x}} .

它的输出一定在0到1之间，因此可以解释为: 当 $h_{w} (x) > 0.5$ 时预测为正类，下面的式子为样本属于正类的概率

P (y = + 1 ∣ f (x); w) = \frac{1}{1 + e ^{- w^{⊤} f (x)}}

和当 $h_{w} (x) < 0.5$ 时预测为负类，下面的式子属于样本属于负类的概率

P (y = - 1 ∣ f (x); w) = 1 - \frac{1}{1 + e ^{- w^{⊤} f (x)}}

Logistic Regression的损失函数和梯度

首先有一个数学小性质

g^{'} (z) = g (z) (1 - g (z))

然后我们看L2 Loss的函数：

L oss (w) = \frac{1}{2} (y - h_{w} (x))^{2}

然后对第i个权重求偏导

\frac{\partial}{\partial w _{i}} \frac{1}{2} (y - h_{w} (x))^{2} = (y - h_{w} (x)) \frac{\partial}{\partial w _{i}} (y - h_{w} (x)) = - (y - h_{w} (x)) h_{w} (x) (1 - h_{w} (x)) x_{i}

因为logistic regression没有简单的closed-form solution, 所以通常用gradient descent来估计权重

Multi-Class Logistic Regression

和之前Perceptron的思路一样，都是从binary变成多类别的，对于多分类逻辑回归我们希望模型输出一个概率分布:

P(y=1|x), P(y=2|x), ..., P(y=K|x)
其中需要满足:
每个概率都 ≥ 0
所有概率加起来 = 1

我们用的模型是Softmax Function，Softmax是logistic function的多分类拓展: 对于类别i我们有:

P (y = i ∣ f (x); w) = \frac{e ^{w_{i}^{⊤} f (x)}}{\sum _{k = 1}^{K} e ^{w_{k}^{⊤} f (x)}} .

其中:

每个类别都有自己的权重向量 w_i；
每个类别都会得到一个 score；
对 score 做指数变换；
再除以所有类别指数分数之和；
得到每个类别的概率

Likelihood

我们在这里用Likelihood方法来表示参数w以使观测到的数据有最大的可能性,我们的训练目标就是最大化这个likelihood：

ℓ (w_{1}, \dots, w_{K}) = i = 1 \prod n P (y_{i} ∣ f (x_{i}); w)

注意一下区分:

Softmax 负责算每个类别的概率；
Likelihood 负责把每个样本“真实类别的概率”拿出来乘在一起

然后我们为了写出多分类的likelihood，定义下面:

t_{i, k} = ⎩ ⎨ ⎧ 1, 0, y_{i} = k y_{i} \neq = k

即:

如果第 i 个样本真实类别是 k，那么 t_{i,k}=1；
否则 t_{i,k}=0 这里举个例子更容易理解，对于某个样本x_i，Softmax会输出：

P(猫 | x_i)
P(狗 | x_i)
P(鸟 | x_i)

但是真实标签只有一个，比如真实标签是狗，我们只想保留:

P(狗 | x_i)

我们就用 $t_{i, k}$ 来表示：

如果第 i 个样本真实类别是 k，那么 t_{i,k} = 1
否则 t_{i,k} = 0

所以就可以得到如果真实类别是狗，也就是第二类那么:

t_i = [0, 1, 0]

所以说：

P (猫 ∣ x_{i})^{0} \times P (狗 ∣ x_{i})^{1} \times P (鸟 ∣ x_{i})^{0} = P (狗 ∣ x_{i})

然后我们的likelihood公式就可以写成:

ℓ (w_{1}, \dots, w_{K}) = i = 1 \prod n k = 1 \prod K \frac{e ^{w_{k}^{T} f (x_{i})}}{\sum _{ℓ = 1}^{K} e ^{w_{ℓ}^{T} f (x_{i})}}^{t_{i, k}}

对应的log- likelihood就是:

l o g ℓ (w_{1}, \dots, w_{K}) = i = 1 \sum n k = 1 \sum K t_{i, k} lo g \frac{e ^{w_{k}^{T} f (x_{i})}}{\sum _{ℓ = 1}^{K} e ^{w_{ℓ}^{T} f (x_{i})}}

Softmax的梯度

\nabla_{w_{j}} lo g ℓ (w) = i = 1 \sum n \nabla_{w_{j}} k = 1 \sum K t_{i, k} lo g (\frac{e ^{w_{k}^{⊤} f (x_{i})}}{\sum _{ℓ = 1}^{K} e ^{w_{ℓ}^{⊤} f (x_{i})}}) = i = 1 \sum n (t_{i, j} - \frac{e ^{w_{j}^{⊤} f (x_{i})}}{\sum _{ℓ = 1}^{K} e ^{w_{ℓ}^{⊤} f (x_{i})}}) f (x_{i})

imDwAaY's learning website

探索

Note20