回归分析 | 务醒’s Blog

关于数据矩阵 的随机性问题： 在一般情形下，可视为随机，因为样本是随机变量的实现。

格林在第 6.1 节特别强调：

“We will treat XX as fixed in repeated samples, though in most econometric applications it is random. This distinction is immaterial for the results presented below.”
（我们在推导中将视为固定，但在大多数经济应用中它是随机的，这种区别对主要结果影响不大。）

关于球面方差的定义：

“The assumption of spherical disturbances implies that the covariance matrix of the disturbances is proportional to the identity matrix.” （球面扰动假设意味着误差协方差阵与单位矩阵成比例。）

为什么会出现两种估计方法？

格林第 7 章提到两种方法并存的原因非常明确：

“OLS arises naturally from the geometry of linear projections, while MLE arises from the probability model for the data. They coincide under normality, but differ conceptually.”

换句话说：

OLS 是几何最优的 → 误差平方和最小化 = 垂直投影。
MLE 是概率最优的 → 给定模型分布，参数使样本“最可能出现”。

二者出发点不同：

OLS 不关心分布，只关心“误差平方最小”；
MLE 关心概率分布最大化。

所以，OLS 是“分布自由”的几何方法，MLE 是“分布依赖”的统计方法。

关于无偏性、有效性和一致性（主要的评价指标）：

概念	保证了什么	通俗解释
无偏性	估计量“平均不跑偏”	我用很多样本重复估计，结果的平均值刚好是正确答案
一致性	样本越大结果越准	数据越来越多时，估计结果会越来越靠近真值
有效性	方差最小、最稳定	在所有正确的估计方法中，我的方法波动最小、最准

Concept：广义线性模型

什么叫做指数族？

分布类型	随机变量范围	自然参数 θ	方差函数 ()	备注
正态 ()			常数	线性回归
二项分布 ()				Logistic 回归
泊松分布 ()				Poisson 回归
Gamma 分布				Gamma 回归

指数分布族的共同结构使得广义线性模型可以在统一的极大似然框架下处理不同类型的数据。

如何理解连接函数：连接函数的本质作用是 确保模型的预测值符合响应变量的取值域。

Concept：Logit 回归

Logit 回归是选择了正则连接的广义线性模型，如果用连续模型外推离散模型，则 Logit、Probit、cloglog 可以视作是对连续模型误差做不同程度分布假设的结果。

一、GLM 框架回顾（从总体出发）

广义线性模型定义为：

对二值选择模型而言，响应变量 ()，因此：

所以：

随机部分：二项分布族（Bernoulli）；

系统部分：()；

剩下的唯一自由度：选择连接函数 ()。

这正是 Logistic / Probit / cloglog 三种模型的分界点。

二、从 GLM 角度推导 Logistic 模型的逻辑

(1) 随机部分：二项分布属于指数分布族

对于 ()：

→ 属于指数分布族，且其自然参数是：

(2) 根据指数族理论，规范连接（canonical link）是自然参数本身：

这就是 Logit 连接函数。

于是系统部分与随机部分通过：

联系在一起。

(3) 逆连接函数（均值函数）

从上式可解得：

这就是经典的 Logistic 模型。

它是广义线性模型在二项分布下，采用规范连接函数得到的自然形式。

(4) 小结：Logistic 模型的产生逻辑

GLM 组成	Logistic 模型对应内容
随机部分	()
系统部分
连接函数（规范连接）
逆连接函数
估计方法	极大似然（IRLS）

因此，Logistic 模型是二项分布 GLM 的“规范形式”。
这也是为什么 Logistic 回归通常被称作“广义线性模型的标准例子”。

三、Probit 模型：非规范连接但有潜变量动机

格林书第 11.5 节指出：

Probit 模型虽然也属于广义线性模型框架（随机部分仍为二项分布），

但其连接函数 () 不是规范的 logit，而是基于标准正态分布的累积分布函数（CDF）。

(1) 定义

其中 () 为标准正态分布的 CDF。

(2) 逻辑起源（潜变量解释）

假设存在潜在连续变量：

并定义观测变量：

则：

→ 得到与上面相同的形式。

(3) GLM 视角

组成部分	Probit 模型
随机部分
系统部分
连接函数
逆连接函数

区别：

probit 连接函数非规范（canonical），计算上略复杂（需数值积分），

但在潜变量视角下具有更自然的概率解释。

四、cloglog 模型（Complementary log-log）

cloglog 模型也是 GLM 框架下的二项响应模型，

只不过选择了另一种单调连接函数：

(1) 逆连接函数

(2) 概率分布起源（极值型）

若我们假设潜在误差项服从**极值分布（Gumbel Distribution）**而非正态或 Logistic 分布，则自然得到 cloglog 模型。

在潜变量视角下：

因此，cloglog 模型可视为极值分布对应的 GLM 形式。

(3) 统计性质与用途

非对称连接函数（相比 logit / probit）；

适用于罕见事件或生存分析中的离散时间风险模型；

当 (p) 很小时，logit 与 probit 都近似对称，但 cloglog 更能捕捉尾部偏态。

五、三种模型的 GLM 框架对比（书本表格总结）

模型	响应分布	连接函数 (g(p))	逆连接 (p=g^{-1}(\eta))	潜变量假设	对称性
Logistic	Bernoulli			Logistic 分布误差	对称
Probit	Bernoulli			正态分布误差	对称
cloglog	Bernoulli			极值分布误差	非对称

六、几何直觉（g–g⁻¹ 对比）

可以直观地理解三种模型的“连接函数”行为：

连接函数形状	特点
Logit：S型，增长快，对称于0	常用默认，参数解释为对数几率变化
Probit：S型，但两端收敛更慢	中间平缓，尾部较厚，适合正态潜变量假设
cloglog：右偏S型（左陡右缓）	捕捉罕见事件概率上升过程

七、直觉总结（从 GLM 出发的统一逻辑）

层次	Logistic	Probit	cloglog
随机部分	Bernoulli	Bernoulli	Bernoulli
系统部分	(x'\beta)	(x'\beta)	(x'\beta)
连接函数	logit	probit	cloglog
规范性	✅ 规范（canonical）	❌ 非规范	❌ 非规范
误差分布解释	Logistic	Normal	Extreme Value
形态	对称	对称	非对称（右尾长）
常用场景	一般二分类	有潜变量解释	罕见事件、生存分析

八、一句话总结

从广义线性模型的角度看：
Logistic 模型 是 二项分布 + 规范连接函数（logit） 的自然结果；
Probit 模型 是同一分布下 非规范但正态潜变量驱动 的变体；
cloglog 模型 是基于 极值分布误差 的非对称变体。
三者共享相同的系统结构，只是通过不同的连接函数 (g(\cdot))
来刻画概率与线性预测量之间的非线性映射。

Concept：工具变量

🎯 一、使用动机

当解释变量与误差项相关（内生性）时，OLS 不再无偏且不一致：

常见内生性来源：

同时性（价格 ↔ 需求）

遗漏变量（教育–能力）

测量误差（GDP、通胀）

⚙️ 二、核心思想

引入工具变量 (Z)，满足：

用 (Z) 提取 (X) 的“外生部分”，再估计 (y)。

🧩 三、估计公式

单变量：

多变量（2SLS）：

🧮 四、性质总结

性质	表现	原因
无偏性	有限样本有偏；大样本一致	分母随机、有限样本波动
有效性	方差大、效率低	仅用 (Z) 提供的外生信息
一致性	若 (E(Z'u)=0) 且 rank((E(Z'X)))=k，则一致	工具有效时成立

🔧 五、使用条件

1️⃣ 相关性：(Cov(Z,X)\neq0)，第一阶段 (F>10)。

2️⃣ 外生性：(Cov(Z,u)=0)，可用 Hansen/Sargan 检验。

3️⃣ 识别性：工具数 ≥ 内生变量数。

🚫 六、主要局限

弱工具：偏差大、方差爆炸

无效工具：带入新偏误

效率低：信息利用不足

🧠 七、一句话总结

工具变量法通过“干净的外生信号”修正内生性偏误，
是一种一致但低效的估计方法：方向对，但波动大。

Concept：复共线性（多重共线性）

我们的目标是想让估计值的方差尽可能小，所以我们研究了 OLS 的最小方差性质，但是最小方差性质只是保障了方差在所有其他的估计中最小，但是如果模型设定不加，就会导致这个最小的方差天然就很大，这是不理想的。

之所以会出现上述出现的情况最主要的原因就是

在 OLS 的语境下

其中为相关系数矩阵的特征值，所以只要有一个特征值非常小，那么最后 MSE 就会很大

此外还可以证得，只要有一个特征值很小，LS 估计的模唱平均来说要比真正的大得多，这就导致了的某些分量绝对值太大
上述这些都是由于复共线性导致的

通常可以用的条件数（即最大特征值和最小特征值的比值）来衡量多重共线性的严重程度。一般认为小于 100 程度很小，在 100 到 1000 之间就认为是中等强度或较强的复共线性。

另外，注意到

其中 (为相关系数矩阵中第 (k) 个对角线元素的系数。故把该系数称为方差膨胀（variance inflation factor, VIF）因子，记为 ()，其中 ()。可以证明：

其中 )是第 () 个自变量 () 与其余的 () 个自变量 () 之间的复相关系数。
因此，当第 () 个自变量与其余自变量之间的线性相关性越强时，即 () 越接近于1时，() 越大；反之，() 越小，() 也越小。此外，方差扩大因子 (VIF) 也表示多重共线性的另一种度量量。实际应用中，一个经验法则是当方差扩大因子 (VIF) 的值超过 5 或 10，就表示存在多重共线性问题。在 R 语言中，可用 car 包中的函数 vif() 计算方差扩大因子。

解决方案常见的有岭估计或者主成分分析法