文章目录

1.二元分类(Binary classification)

二元分类问题，即训练样本的标签 $y\in$ {0,1}，一般情况下：

0，表示负类(Negative class)
1，表示正类(Positive class)

1.1 逻辑回归的假设函数(Hypothesis function)

注意，逻辑回归模型虽然带着“回归”二字，但它是一个分类算法。

1.1.1 假设函数的推导

$h_θ(x)=g(θ^Tx)$
$g(z) = \frac{1}{1+e^{-z}}$

从而有： $h_θ(x) = \frac{1}{1+e^{-θ^Tx}}$
注：

g(z)被称为Sigmoid函数或者逻辑函数(Logistic function)
g(z)的图像如下

1.1.2 对假设函数输出的解释

$h_θ(x)$ = estimated probability that y = 1 on input x，即对于给定的输入向量x，根据选择的参数θ，计算输出变量y=1的估值概率(estimated probability)，即 $h_θ(x)$ =P(y=1|x;θ)。

又因为在二元分类问题中 $y\in$ {0,1}，有P(y=0|x;θ) + P(y=1|x;θ) = 1，进而：
$P(y=0|x;θ) = 1 - P(y=1|x;θ)$

1.1.3 决策边界(Decision boundary)

在逻辑回归中，我们预测：

$\begin{cases} y = 1，当h_θ(x)\ge0.5 \\ y = 0，当h_θ(x)<0.5 \end{cases}$

又因为 $h_θ(x)=g(θ^Tx)$ ，结合Sigmoid函数的图像可知上述式子等价于

$\begin{cases} y = 1，当θ^Tx\ge0 \\ y = 0，当θ^Tx<0 \end{cases}$

下面举例来解释决策边界的概念：

例1：现在假设我们有一个模型： $h_θ(x)=g(θ_0+θ_1x_1+θ_2x_2)$ ，且参数向量 $θ=\begin{bmatrix} -3 \\ 1 \\ 1\end{bmatrix}$
则当 $h_θ(x)\ge0.5$ ，即 $θ^Tx\ge0$ ，即 $-3+x_1+x_2 \ge 0$ 时，模型将预测y=1。

我们可以绘制直线 $x_1+x_2=3$ ，这条线便是我们模型的分界线，称为决策边界，将预测为1的区域和预测为0的区域分隔开，如下图中红色的线即为我们这个例子的决策边界。
在这里插入图片描述

例2：非线性决策边界。 $h_θ(x) = g(θ_0+θ_1x_1+θ_2x_2+θ_3x_1^2+θ_4x_2^2)$ ，且 $θ=\begin{bmatrix} -1 \\ 0 \\ 0 \\ 1 \\ 1\end{bmatrix}$ (顺便提一下，这个模型是在前面提过的可以在特征中添加额外的高阶多项式，来使模型更好拟合数据。)
则当 $h_θ(x)\ge0.5$ ，即 $θ^Tx\ge0$ ，即 $-1+x_1^2+x_2^2 \ge 0$ 时，模型将预测y=1。

同样地，我们可以绘制 $x_1^2+x_2^2 = 1$ ，这条线便是我们模型的分界线，称为决策边界，将预测为1的区域和预测为0的区域分隔开，如下图中粉红色的线即为我们这个例子的决策边界。
在这里插入图片描述
注：决策边界是假设函数的一个属性，由 $h_θ(x)$ 与参数θ确定(即 $θ^Tx$ 确定)，并不会因数据集而改变；但是因为我们要使用数据集来拟合参数θ，故数据集会决定参数θ的取值；也就是说我们一旦有了确定的参数θ，决策边界就确定了。

1.2 逻辑回归的代价函数(Cost function)

1.2.1 回顾线性回归的代价函数

$J(θ)=\frac{1}{m}\sum_{i=1}^{m}\frac{1}{2}(h_θ(x^{(i)})-y^{(i)})^2$ ，为了方便理解，将此代价函数改写成如下形式：
$\begin{cases} J(θ)=\frac{1}{m}\sum_{i=1}^{m}Cost(h_θ(x^{(i)}),y^{(i)})\\ Cost(h_θ(x),y) = \frac{1}{2}((h_θ(x)-y)^2 \end{cases}$ 如果在逻辑回归中继续使用线性回归的代价函数， $\begin{cases} J(θ)\\ h_θ(x)=g(θ^Tx)= \frac{1}{1+e^{-θ^Tx}} \end{cases}$ ，那么J(θ)就

变成了一个非凸函数(non-convex function)，因此需要重新定义逻辑回归的代价函数。

1.2.2 基于单训练样本的逻辑回归代价函数

$Cost(h_θ(x),y)=\begin{cases} \qquad-log(h_θ(x))，y=1 \\ \ -log(1-h_θ(x))，y=0 \end{cases}$ ，这样J(θ)就是一个凸函数。

下面我们根据图像来看一下我们的代价函数：

$h_θ(x)$ 与 $Cost(h_θ(x),y)$ 之间的关系如下图所示，横轴表示 $h_θ(x)$ ，纵轴表示 $Cost(h_θ(x),y)$
在这里插入图片描述
y=1时， $\begin{cases} 若h_θ(x)=1，\ 即P(y=1|x;θ)=1，\ 则Cost=0\\ 若h_θ(x)\to0，即P(y=1|x;θ)\to0，则Cost\to∞ \end{cases}$

y=0时， $\begin{cases} 若h_θ(x)\to1，即P(y=1|x;θ)\to1，则Cost\to∞\\ 若h_θ(x)=0，\ 即P(y=1|x;θ)=0，\ 则Cost=0 \end{cases}$

1.2.3 逻辑回归代价函数的一般形式

$J(θ)=\frac{1}{m}\sum_{i=1}^{m}Cost(h_θ(x^{(i)}),y^{(i)})$

$Cost(h_θ(x),y)=\begin{cases} \qquad-log(h_θ(x))，y=1 \\ \ -log(1-h_θ(x))，y=0 \end{cases}$ ，又因为在二元分类问题中y $\in$ {0,1}(总是)，

因此 $Cost(h_θ(x),y) = -ylog(h_θ(x))-(1-y)log(1-h_θ(x))$ ，从而最终的代价函数的形式为：
$J(θ) = -\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(h_θ(x^{(i)}))+(1-y^{(i)})log(1-h_θ(x^{(i)}))]$

1.3 批量梯度下降法(Batch Gradient Descent)

1.3.1 梯度下降法更新公式

Repeat until convergence{ $θ_j = θ_j - α\frac{\partial}{\partialθ_j}J(θ)(for \ j = 0,1,2,...,n+1)$ }(同时更新所有 $θ_j$ )

将J(θ)带入上述更新公式中求出偏导数项，有：

Repeat until convergence{ $θ_j = θ_j - α\frac{1}{m}\sum_{i=1}^{m}(h(θ)(x^{(i)})-y^{(i)})x_j^{(i)}(for \ j = 0,1,2,...,n+1)$ }(同时更新所有 $θ_j$ )

其中， $θ= \begin{bmatrix} θ_0 \\ θ_1 \\ θ_2 \\ \vdots \\ θ_n \end{bmatrix}$

注：这里的更新公式与之前线性回归的更新公式表面上“看起来”完全一样，但是要注意 $h_θ(x)$ 是不同的，

$\begin{cases} 线性回归模型：h_θ(x)=θ^Tx\\ 逻辑回归模型：h_θ(x)=\frac{1}{1+e^{-θ^Tx}} \end{cases}$

1.3.2 确保梯度下降法正常工作

如在线性回归模型中所讲，画出J(θ)关于迭代次数变化的函数图像，来看梯度下降法是否正常工作。

线性回归中提到的特征缩放，如果你的特征范围差距很大的话，那么应用特征缩放的方法，同样也可以让逻辑回归中，梯度下降收敛更快。

1.3.3 梯度下降法的向量形式

课上没有讲，自己暂时没有推导出来，先放在这里。

1.4 优化算法(Optimization algorithm)

使用优化算法时，那么我们需要做的是编写代码，当输入参数 θ 时，它们会计算出两样东西：

J(θ)
$\frac{\partial}{\partial θ_j}J(θ)(for \ j = 0,1,2,...,n+1)$

然后以梯度下降法为例，完成上述编码之后，就可以用梯度下降法的更新公式来更新参数θ，直至算法收敛：
Repeat until convergence{ $θ_j = θ_j - α\frac{\partial}{\partialθ_j}J(θ)(for \ j = 0,1,2,...,n+1)$ }(同时更新所有 $θ_j$ )

优化算法，除了有梯度下降法之外，还有其他更高级的优化算法：

Conjugate descent
BFGS
L-BFGS

对于这三种更高级的优化算法，它们的优缺点：

优点： $\begin{cases} 不需手动选择学习率α \\ 通常比梯度下降法收敛得更快 \end{cases}$

缺点：比梯度下降法更加复杂一些。

对于以上三种高级优化算法，你并不需要去手写自己的优化算法，也不需要看懂源码，只需要会使用相应的库来实现即可。

2.多元分类(Multi-class classification)

多元分类又称为多类别分类(类别多于两个，即 $\ge3$ )，即 $y\in$ {1,2,3…}(从0或者1开始都无所谓)。

通过“一对多”(one-vs-all)分类方法，就可以将逻辑回归分类器用在多类别分类问题上了。

“一对多”(或者说“一对余”) 分类方法的原理(举例子来讲解)：
在这里插入图片描述
现在我们有一个训练集，好比上图表示的有三个类别，我们用三角形表示 y=1，方框表示 y=2，叉叉表示 y=3。我们下面要做的就是使用一个训练集，将其分成三个二元分类问题。

我们先从用三角形代表的类别 1 开始，实际上我们可以创建一个，新的"伪"训练集，类型 2 和类型 3 定为负类，类型 1 设定为正类，我们创建一个新的训练集，如下图所示的那样，我们要拟合出一个合适的分类器。
在这里插入图片描述
这里的三角形是正样本，而圆形代表负样本。可以这样想，设置三角形的值为 1，圆形的值为 0，下面我们来训练一个标准的逻辑回归分类器，这样我们就得到一个正边界。

为了能实现这样的转变，我们将多个类中的一个类标记为正向类（y=1），然后将其他所有类都标记为负向类，这个模型记作 $h^{(1)}_θ(x)$ 。接着，类似地第我们选择另一个类标记为正向类(y=2)，再将其它类都标记为负向类，将这个模型记作 $h^{(2)}_θ(x)$ ,依此类推。

最后我们得到一系列的模型简记为： $h^{(i)}_θ(x)=P(y=i|x;θ)$ ，其中i=(1,2,3,…,k),k为类别数。
在这里插入图片描述
最后，在我们需要做预测时，我们将所有的分类机都运行一遍，然后对每一个输入变量，都选择最高可能性的输出变量。

总之，我们现在要做的就是训练这个逻辑回归分类器： $h^{(i)}_θ(x)$ ，其中 i 对应每一个可能的 y=i，最后，为了做出预测，我们给出输入一个新的 x 值，用这个做预测。我们要做的就是在我们三个分类器里面输入 x，然后我们选择一个让 $h^{(i)}_θ(x)$ 最大的 i，即 $max_ih^{(i)}_θ(x)$ 。

小结： “一对多”分类方法就是：为每个类别i都训练一个逻辑回归分类器 $h^{(i)}_θ(x)$ ，来预测y=i的概率；对一个给定的新的输入x，取 $max_ih^{(i)}_θ(x)$ 作为新输入x的类别。

菜单 学习猿地 - LMONKEY

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练！告别无效练习

接私单赚外块

VIP优先接，累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

人生苦短我要学Python！

PHP开发工程师

PHP是世界上最好的编程语言!

GO开发工程师

想优雅的写程序，赶紧GO!

大数据开发工程师

弄大数据，就是在搞革命!

前端开发工程师

不仅最好，而且最全!

UI开发工程师

这个世界从来不缺少美，缺少你来创造美!

Linux运维工程师

不只是说说而已！

WEB前端1+X

不仅为考证，轻松做开发

计算机二级（C语言）

一切只为考证！

猿工手册

各种工具精挑细选

猿材料

各种工具精挑细选

猿代码

各种工具精挑细选

猿著课件

各种工具精挑细选

知识题库

知识闯关节节高，刷题涨知识！

阶段练习

单元测试知识学习状况秒掌握！

期末考试

期末测试，学习情况即刻知道！

面试题库

最新的企业技术人员招聘真题练习！

Java专区

2948篇 ｜ 24.5万人浏览

Python专区

2593篇 ｜ 19.5万人浏览

大数据专区

2948篇 ｜ 18.5万人浏览

PHP专区

3953篇 ｜ 27.5万人浏览

Go专区

1382篇 ｜ 12.5万人浏览

Web前端专区

1453篇 ｜ 31.5万人浏览

Linux云计算

1230篇 ｜ 4.5万人浏览

其他专区

53232篇文章 ｜ 11.5万人浏览

搜索

历史记录 清除记录

近期热搜

项目开发全程实录（电商EW_Shop）

8680 人 1年前

轻松学会Laravel-项目篇（商城API）

2022 人 1年前

Python数据分析2.0-金融

325 人 1年前

Python办公自动化2.0

241 人 1年前

使用账号登录

启用更安全省心的  微信登录

Java开发工程师

何以解忧，唯有 Java！

Python开发工程师

菜单学习猿地 - LMONKEY

尊享10项VIP特权持续新增

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览

历史记录清除记录

2948篇｜ 24.5万人浏览

2593篇｜ 19.5万人浏览

2948篇｜ 18.5万人浏览

3953篇｜ 27.5万人浏览

1382篇｜ 12.5万人浏览

1453篇｜ 31.5万人浏览

1230篇｜ 4.5万人浏览

53232篇文章｜ 11.5万人浏览