美国大学生数学建模竞赛2019年C题分析

问题

  1. 题干中提到数据密集型年度报告,即建模使用的大数据的一部分。其中,与2020年C相类似的报告中具有文字内容。

  2. 这里订正一个概念:C题的原名叫做Data insight,而不是Big data大数据。Data insight直译为数据洞察,可以理解为经常被提到的数据分析。所以在接触C题的时候应该从统计、分析的角度去思考,而不是针对数据量大的特征去进行技术的套用。

  3. 量化在C题中是一个重要的技术与论文环节设置。如何将那些没有量化的信息通过定义进行量化:定义中包含公式。我觉得一定是定义进行量化,定义可以解释量化方式的合理性,仅仅用公式表达则抽象。公式的地位应该与图表相同。需要留心的是,在其他类型的题目、其他的比赛中量化还具有重要的作用?这需要在以后的学习中观察。

  4. 假设提供的县位置数据是正确的。值得学习的假设!!这倒是不符合你的作风,你会忽略很多简单却必要的东西。这个假设是因为在建模过程中,大家有一个公认的前提:提供的大数据集其中任何一条一栏都有可能是错误的。

  5. 第一部分的问题中提到传播,警惕传播模型的出现,可以当作关键词进行搜索。队长注意,建模过程中应该有一个确定关键词的环节,方便搜索文献任务的分配。词汇表:有关名词解释,帮助理解问题主旨,有助于建立模型。

  6. 第二部分有点像统计分析表述以及数据分析挖掘。在我们阅读的优秀论文中,all of them 在模型设置的各个细节都与题目进行了紧密地结合。即Data insight。

  7. 第三部分不是要讲一个完美的系统,而是提出一个有用的策略并验证其有效性。完美的系统当然是竭尽全力追寻的目标,但是现实情况复杂多变:问题难度过高、队伍的技术不过关(反映在三个方面,携手能力的限制绝对令人痛苦,在下一篇文章中详述)等阻碍存在。我们做的工作只能是尽力改善。确定参数界限,这种问题之前没有遇到过,使用灵敏度分析似乎不太恰当。

第一篇

  1. 在观察数据的时候发现,美赛的数据需要一位同学去专门翻译、整理数据,梳理数据的基本情况并反映给队友,能记录则更好。

  2. 问题总结部分像是一个小摘要,把模型的组成浅要地说了一遍。貌似2020C的两篇文章也有这块。这里可以写基于什么数据建立了什么模型,后面加入了什么数据,对模型进行扩展。现有模型总结是查找文献的总结。

  3. 对数据进行了哪种处理,而并非实际操作。“敲了几颗钉子,而不是怎么用锤子把钉子给敲进去。”。这里反对2020年某优秀论文的做法,将SPSS中的各种操作描述,“去除缺失值的命令#¥DD¥%%”。

  4. 模型分了外部影响和内部影响。下篇会介绍我们将模型清晰划分为预测部分与决策部分。

  5. 背景介绍的名词,有助于了解模型。应该结合目录与模型决定要不要。这里突然想起来目录会占到25页中的一页。

  6. 假设:药物报告数据代表一个县或州的总体药物使用情况带有明显的数据分析特点。像是在题目上插了一支小红旗:“呜啦啦啦!我是数据分析题!”如果所给的数据没有代表性,那么数据分析就是失去了意义。数据分析一定要有的假设!

  7. 某些指标达到阈值,它就可能是起源位置。可以归类为制定标准的方法。

  8. 模型本来没有针对某一种药物进行建模,而是毒品传播的普遍规律进行模型建立。模型的拓展讲的是模型对每一种毒品都适用,这样表示比下标划分情况更加干净。

  9. 论文内结果计算的部分特别少,同时也没有残差的计算公式。是清新脱俗的建模,而不是油腻的操作指南。

  10. 预测结果比较的画图方法(参考线的斜率为1)相对于原来以时间或者个体为轴的方法简练又清晰,既能定量分析,又能定性分析。强烈建议学习!!横纵坐标分别是预测值、准确值。回归出来的直线斜率越接近1说明预测效果越好。

  11. 模型的验证似乎在说:随着时间的增加,模型预测的准确率不断接近1。因为它建立的模型是ΔDrug(变化值)关于自变量的函数,那么随着时间增加的Δ是逐渐有限的。(我是这么理解的)这种求变化值的方法同样可以应用在残差上面。

  12. 灵敏度分析竟然扩大了数据的大小。这样就不是调整参数了。

  13. 阈值划分的两种方法:

    1. 按照比例进行划分,那么一定可以选出满足条件的群体。
    2. 制定标准。这个显然是更贴近符合现实情况的(呃比例的话也有很好的现实意义:扩大筛查空间)。那么标准的合理性又会受到怀疑。

    文中用的是比例。觉得比较好的方法就是比例加上验证,说明比例划分的合理性。

  14. 重要的经济社会影响:这里的R方是拟合优度。R方用来评价拟合效果。下面计算的部分是药物报告和时间的R方减去每个因素和时间的R方,这样下面的指标才有-1到+1取值范围,每个县的每个因素都有这样的一个取值范围。然后因为药物总报告是按照县划分的,所以取的应该是一个县的每个因素的中值,从中值分为了两种趋势。中值高不合适、中值低的应该也不合适,中(没理解啊啊啊啊)。
    认为有一点不好的地方就是,只用中值作为参考因素的话,很多信息都会被忽略掉。比如说你用中值作为一些模型的输入变量去预测或者回归就会感觉信息不足,但是你要是评价决策感觉还可以接受。前者准确性要求高,后者则不一定。

  15. 所有的都是针对一种毒品进行建模。这种去繁就简的方法也比较适合学习,避免反正最后适用于所有毒品,把问题解决了就好嘛。

  16. 后面增加经济因素考量,继续预测总报告数。模型的前半段是探索性的尝试,后面回归又进行验证。

  17. 政策对模型的影响现在想着有两种影响方式:

    1. 高级:在模型中加入新的变量。
    2. 低级:调整参数。

    这两种方式都对最终的结果有所影响。也可以把原来的参数替换为变量。这应该就是政策对模型影响的解决方式。政策类的问题在美赛中对应的问题应该是F题。
    我评价高级还是低级的标准是:这种方法考虑是否全面,当然适合更加重要。

  18. 公式需要注意,标准的表达方式有很多:下标的使用,以及集合的使用(表示从属关系以及集体概念)。

  19. 警惕!!警惕!!不要强行要求自己建模,大部分时候还是基于文献和使用简单方法的。比如说这篇里面的社会物理学模型,还是基于文献进行改进的。为什么要看优秀论文?学习是一方面,可以借鉴是另外一方面嘛。借鉴是门学问。

  20. 留下的问题:

    1. 计算残差的公式
    2. 可以查一下残差的具体应用

第二篇

  1. 空间回归。简述:把空间因素作为重要数据考虑在回归中的方法,这种方法隶属于回归。
    回归模型的作用:

    1. 产生因果关系
    2. 预测
      将空间的因素考虑进去产生空间回归需要再次思考,针对有关空间的问题很有用。
  2. 马尔可夫性。也就是论文中提到的随机漫步。
    什么是马尔可夫链?
    一句话描述:状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备无记忆的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。

  3. 模型收敛的重要性。
    收敛是指这个算法有能力找到局部的或者全局的最小值,(比如找到使得预测的标签和真实的标签最相近的值,也就是二者距离的最小值),从而得到一个问题的最优解。如果说一个机器学习算法的效果和瞎蒙的差不多那么基本就可以说这个算法没有收敛,也就是根本没有去学习
    泛化能力是指一个机器学习算法对于没有见过的样本的识别能力,也可以成为学以致用举一反三的能力。

  4. tableau做出来的图好漂亮,seaborn也是。数据可视化的好助手,我是见一个爱一个。

  5. 离散的发展情况。明显区别与连续问题(微分方程)

  6. 惩罚矩阵的作用反映在“惩罚”,形式为“矩阵”

  7. 回归一定程度上是用来验证建立关系的,需要先用相关系数来进行关系的探索,更离不开结合背景对两个变量之间关系的分析

留下的问题

  1. 似然比检验(likelihood ratio, LR) 是反映真实性的一种指标,属于同时反映灵敏度和特异度的复合指标。

  2. 蒙特卡洛模拟。一种仿真模拟方法。具体怎么操作不太了解。

  3. 回归分析需要满足的基本假设,否则模型建立没有意义:
    回归分析的基本假设自己还没看,需要研究一下。

posted @   暗流Ch  阅读(1154)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 一文读懂知识蒸馏
· 终于写完轮子一部分:tcp代理 了,记录一下
点击右上角即可分享
微信分享提示