



代码部分
- 描述性统计分析
- 长样本(含战争虚拟变量 W)
- 短样本(2000 年以后)
variable | mean | var |
Year | 1945.00 | 11.000000 |
X | 2727.27 | 1230.018182 |
C | 2727.27 | 1261.818182 |
W | 0.3636 | 0.254545 |
variable | mean | var |
Year | 2004.50 | 9.166667e+00 |
X | 10373.53 | 1.974150e+06 |
C | 88569.40 | 1.548764e+06 |
- 散点图


- 参数估计值(完全一致)
=== 长样本(C ~ X + W) ===
手算 b = [const, X, W]: [ 14.495403 0.857511 -50.689737]
库算 b1 : [ 14.495403 0.857511 -50.689737]
R^2 手算=0.9464, 库算=0.9464
=== 长样本(C~X)===
手算 b = [const, X]: [51.895109 0.684801]
库算 b1 : [51.895109 0.684801]
R^2 手算=0.4571, 库算=0.4571
=== 短样本(C ~ X) ===
手算 b = [const, X] : [-587.185488 0.882688]
库算 b1 : [-587.185488 0.882688]
R^2 手算=0.9931, 库算=0.9931
- 两附件结果对比
- 对于短样本(不包含战争年)的数据来说 X 的边际倾向更大(0.883 vs 0.684),且线性拟合极好(R² 更高),反映近年结构增长更线性。
数据预处理方式
1. 数据清洗
- 缺失值处理:删除(listwise/pairwise deletion)、均值/中位数/众数填充、插值法、KNN 填补、多重插补等。
- 异常值处理:Z-score 法、IQR 法、箱线图检测,异常点可选择删除或替换。
- 重复值处理:去重或合并。
- 一致性检查:如日期格式、大小写统一。
2. 数据变换
- 标准化 (Standardization):将数据转化为均值 0、方差 1 的分布,常见于回归、SVM 等。
- 归一化 (Normalization / Min-Max Scaling):将数据缩放到 [0,1] 区间,适用于神经网络。
- 对数变换 / Box-Cox / Yeo-Johnson:减小偏态,提高数据近似正态性。
- 离散化 (Binning):连续变量分箱,便于建模或可视化。
3. 特征工程
- 特征编码:
- One-Hot Encoding(哑变量编码)
- Label Encoding(整数编码)
- Target Encoding(均值编码)
- 特征构造:交互项、多项式特征、时间序列滞后变量。
- 降维:
- PCA(主成分分析)
- LDA(线性判别分析)
- AutoEncoder 等非线性方法
- 特征选择:方差筛选、相关系数筛选、Lasso、树模型重要性。
4. 数据采样与平衡
- 采样:下采样、过采样(如 SMOTE)。
- 分层抽样:保持类别比例一致。
- 训练集/验证集/测试集划分。
5. 特定领域预处理
- 文本:分词、去停用词、词干化、TF-IDF 向量化、词嵌入。
- 图像:归一化、标准化、数据增强(旋转、裁剪、翻转)。
- 时间序列:去趋势、差分、平滑、标准化、滑动窗口。


