类型
课程实践
状态
已完成
开始日期
Mar 15, 2025
结束日期
Jun 10, 2025
参与角色
项目负责人
指导教师
详细描述
关键词
自然语言处理
数据分析
情感分析
相关链接
成果产出
在这项项目中,我使用了 TF-IDF(包括 uni/bi-gram,5000 特征)与 逻辑回归 相结合的技术,对 IMDB 数据集中的 50,000 条影评进行情感分析,任务是对影评进行正向与负向情感分类。经过数据预处理与特征提取后,我对多个经典模型进行了评估,并通过 5 折交叉验证优化模型,最终取得了如下优异成绩:
  • 准确率:89.2%
  • F1 值:0.893
  • ROC-AUC:0.96
该模型在性能上显著优于基准模型(SVMNaive BayesRandom Forest)。通过对比不同模型的结果,我总结出逻辑回归在处理文本数据时,配合 TF-IDF 向量化,能够有效捕捉影评中的情感信息,特别是在高维特征空间中展现出了较强的区分能力。
为了进一步提升模型的解释性,我还制作了差异性词云,展示了正负面评论中最具区分度的关键词,帮助深入理解情感分析背后的核心特征。
学习与收获:
  1. 数据预处理与特征提取:通过对文本数据的清洗、分词、去停用词和词形还原,掌握了 NLP 中的基本数据处理技巧,理解了如何通过 TF-IDF 提取文本中的关键信息。
  1. 模型评估与优化:在使用逻辑回归、SVM、随机森林等模型时,我通过交叉验证对比了各个模型的效果,深入了解了机器学习中如何根据性能指标(如准确率、F1 值、ROC-AUC)选择最佳模型。
  1. 模型可解释性提升:通过差异性分析,成功提取了正负面评论中最具代表性的词汇,并利用词云可视化帮助分析情感偏向。
  1. 跨领域能力:这一项目不仅提升了我的 NLP 技能,还加强了我在机器学习模型选择、调参及评估方面的综合能力,为我后续在深度学习及强化学习项目中奠定了基础。
该项目的成功完成,得到了课程的 A+ 评分,并因此获得了国际顶尖创新人才培养项目的邀请。通过这次经验,我对情感分析领域有了更深的理解,并为未来更复杂的文本分类任务积累了宝贵经验。
Loading...
务醒
务醒
慢慢搭一座知识楼📖
小红书
统计
文章数:
1
公告
🎉务醒‘s Blog 已经上线🎉
-- 感谢您的支持 ---