notion image
notion image
notion image
notion image

代码部分

  • 描述性统计分析
    • 长样本(含战争虚拟变量 W)
      • variable
        mean
        var
        Year
        1945.00
        11.000000
        X
        2727.27
        1230.018182
        C
        2727.27
        1261.818182
        W
        0.3636
        0.254545
    • 短样本(2000 年以后)
      • variable
        mean
        var
        Year
        2004.50
        9.166667e+00
        X
        10373.53
        1.974150e+06
        C
        88569.40
        1.548764e+06
  • 散点图
    • 含战争年
      含战争年
      不含战争年
      不含战争年
  • 参数估计值(完全一致)
    • === 长样本(C ~ X + W) === 手算 b = [const, X, W]: [ 14.495403 0.857511 -50.689737] 库算 b1 : [ 14.495403 0.857511 -50.689737] R^2 手算=0.9464, 库算=0.9464
      === 长样本(C~X)===
      手算 b = [const, X]: [51.895109 0.684801] 库算 b1 : [51.895109 0.684801] R^2 手算=0.4571, 库算=0.4571
      === 短样本(C ~ X) === 手算 b = [const, X] : [-587.185488 0.882688] 库算 b1 : [-587.185488 0.882688] R^2 手算=0.9931, 库算=0.9931
  • 两附件结果对比
    • 对于短样本(不包含战争年)的数据来说 X 的边际倾向更大(0.883 vs 0.684),且线性拟合极好(R² 更高),反映近年结构增长更线性。
 

数据预处理方式

1. 数据清洗

  • 缺失值处理:删除(listwise/pairwise deletion)、均值/中位数/众数填充、插值法、KNN 填补、多重插补等。
  • 异常值处理:Z-score 法、IQR 法、箱线图检测,异常点可选择删除或替换。
  • 重复值处理:去重或合并。
  • 一致性检查:如日期格式、大小写统一。

2. 数据变换

  • 标准化 (Standardization):将数据转化为均值 0、方差 1 的分布,常见于回归、SVM 等。
  • 归一化 (Normalization / Min-Max Scaling):将数据缩放到 [0,1] 区间,适用于神经网络。
  • 对数变换 / Box-Cox / Yeo-Johnson:减小偏态,提高数据近似正态性。
  • 离散化 (Binning):连续变量分箱,便于建模或可视化。

3. 特征工程

  • 特征编码
    • One-Hot Encoding(哑变量编码)
    • Label Encoding(整数编码)
    • Target Encoding(均值编码)
  • 特征构造:交互项、多项式特征、时间序列滞后变量。
  • 降维
    • PCA(主成分分析)
    • LDA(线性判别分析)
    • AutoEncoder 等非线性方法
  • 特征选择:方差筛选、相关系数筛选、Lasso、树模型重要性。

4. 数据采样与平衡

  • 采样:下采样、过采样(如 SMOTE)。
  • 分层抽样:保持类别比例一致。
  • 训练集/验证集/测试集划分

5. 特定领域预处理

  • 文本:分词、去停用词、词干化、TF-IDF 向量化、词嵌入。
  • 图像:归一化、标准化、数据增强(旋转、裁剪、翻转)。
  • 时间序列:去趋势、差分、平滑、标准化、滑动窗口。
Loading...