美国大学生数学建模竞赛2020年C题分析
问题
2020年C题建立数学模行的目标是:利用数据使公司深入了解他们参与的市场、参与的时机以及产品设计功能选择的潜在成功。题目所给数据:数字类数据与字符串类数据。其中,对评论的量化分析是很重要的一部分。
第一篇
-
摘要的第一段格式和国赛的格式区别很大。没有重点写方法,而是写背景和题目。
-
使用了基于词典的方法、情感评分评价系统、主成分分析法、时间序列模型ARIMA、非参数检验
其中,基于词典的方法和情感评分评价系统的结合与机器学习方法的区别很大。
在情感评分评价系统中以及第二篇优秀论文里都出现情感极性这个词,读起来的感觉像某个领域的专业名词。这种名词在建模查找文献的时候需要敏锐地进行总结与记录,不要误用或者不用。 -
其中有一句话我们旨在探索三个变量之间的内在关系,在阅读论文的时候发现,优秀论文有些地方被加粗了作为重点了,这个我们需要注意。因为国赛能不能这样注明是待考证的,美赛感觉可以学着将英文原文进行加粗。具体在做的过程中,可以将加粗单独作为论文完成后的一个环节去设计,这样还能达到梳理论文结构的目的。根据我们的方法对备选产品进行排名问题中没有要求,是队伍根据题意提出的。
-
文献评论这一块比较有意思,写的都是以往对该问题的研究,而且与队伍的模型很相关。这样也把思路讲的很清晰。经过我们的队伍讨论之后,我们决定学习这种写作方法。同时,吸取亚太赛的经验,要根据官方所给的模板进行写作,不然写完之后还要重新排版。几乎这样必然熬夜!!!伤身伤神!!避免避免!!
-
我们的工作概述,与第二篇对比来说,流程图更加清晰。
-
数据的预处理写的步骤清晰,把每一个操作写出来之后,非常像一篇操作指南而不是建立模型。谨慎学习。
-
图和表两者同时运用去表达同一组数据,将数据的统计特征表示地更加清晰,非常值得学习。
-
三级评价模型是对主成分分析法的一种改进,"改善"是一种常见的建立模型的思路(可能是已经学习的简单模型也可能是文献中成熟的模型),但是需要留意的是建立模型的效果好坏应该评估(一般可视化),否则模型不完整。与它有明显区别的建模思路于第二篇中体现,需要调节各种变量的变化方式与系数来改变模型的结果。如1/2log10 x这种控制方式
-
获得的额外知识:主成分分析法不需要正态分布那么也就意味着,有其他的方法需要正态分布,以后建立模型的时候就应该注意搜索一下:使用了某某方法,
- 它有什么使用的前提?
- 需要提前做什么样的检验?
- 结果是否需要进行检验?
存在一些还没有解决的问题:
-
0001 这里听指导老师讲课的问题,似乎是一种模型对应一种分析方法(处理后事的部分)。微分方程用灵敏性分析,预测也需要灵敏性分析与准确性检验。下面列出一些分析你的模型的方法,并不全面:
- 灵敏性检验
- 稳定性检验
- 准确性检验
-
0002 非参数检验是什么意思?
-
0003 鲁棒性究竟意味着什么?
第二篇
- 在摘要中明显地提出,模型定义了产品的评分,评分是我们定义的。这种定义的写法是我们需要的,单独划分一个小节出来很清晰。
- 引用了一句名言。。。花里胡哨
- 错位的数据,提供数据的比赛中可能会出现这种情况。之前没有遇到过,只注意了异常值、缺失值等情况。
- 修正项的使用非常的好。是对自己模型的改善,也可以使用到对别人模型的改善。说实话,感觉你如果有一个人家用过的模型,加一个修正项就可以在论文里成为是你自己的模型,只要你的模型结果好,就无可摘要。
- kendall tau方法,评价两个序列的相关性。用相似程度来说更好,即使两条曲线相差距离很远,那么也可以根据这个方法来判断是否相似。值得学习的方法!!使用的地方很多
- 映射使得分更加合理。值得学习的方法!!使表述更加清晰啦!!
- 阈值随时间变化,这个设计很巧妙。与某些现实问题连接,方法可以用到其他问题中。
- 整体论文的结构呈现自顶向下的结构,从了解到模型需要设计哪些变量,再到变量之间的关系,接着是具体介绍变量的取值范围和这样取值的原因,最终分析模型建立的效果。
- 模型框架的图画的很漂亮、清晰。应该有专门的软件吧。查了一下有AxGlyph、Visio。结构的话,我觉得甚至可以照着优秀论文的画。说实话,美赛就是越花哨越得奖,当然原因是因为:大部分的花哨都是有足够的工作和内容来支撑的。
- 假设似乎没学到什么东西。合理就行,必不必要再说。
- 模型通过矩阵来实现,保留了更多的信息,包括很重要的时间。
- 高斯回归属于监督机器学习方法,可以解决回归和概率问题。应该进一步了解。有一个做的非常好的是95%的置信区间,把概率较小的可能性也进行计算与可视化了,考虑全面且花哨。
- 设定成功阈值,这是一种定义。值得学习,在于论文专门分了一个小节去讲这个成功阈值的合理性与结果,写的非常清晰,清晰就等于你做的工作有效。同时想起来上次亚太赛的事情。。。。没按照模板写,调了好长时间。美赛也没限制于国赛数学建模的结构。
- 上面并列的很多图,是我想在论文里做出来的一个结构。能表现咱们做的工作,又能产生对比。
- 灵敏度分析做的很标准,值得学习。也进行了可视化。
存在一些还没有解决的问题:
- 0004 了解高斯过程回归
编程与实现方面
- python seaborn库可以进行更高级的可视化,可能会更适合做大数据的题目。可以看一下官方文档进行学习。
- 字符类的数据怎么处理?jieba库应该有用,查阅官方文档。也可以再查找一下其他方法。
- 最基本的数据预处理、数据描述(分析)、可视化、数据挖掘(分量不是特别多),重视数据而不是重视挖掘技术。
- 参考文献中提到了自然语言工具包,可以简单地了解一下。
优秀论文分享
链接:https://pan.baidu.com/s/1Vf2IgEn8cq2qqQc-2f1meA
链接:https://pan.baidu.com/s/1UBiQXUV6WG-rLDl7nTlESA
提取码:0058
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具