简述数学建模比赛

1.赛前准备

1.1了解比赛

时间：每年9月，今年是9月5日晚上6点开始到9月8日

在9月8日20：00前生成”参赛论文“及必要的”支撑材料“的MD5码
生成MD5码后，就不要再碰文件了，连打开都不行。
赛题：
本科组ABC任选一道，专科组DE题，也可以选ABC

1.2 软件安装

注意：软件应与队友在同一版本

Matlab：如果学校已购买可以用学校的，没有的话就在网络上找免费资源吧。
Mathpix：可以通过截图获得公式
AxGlyph：学术绘图

1.3 其他准备

1.赛前不熬夜

数学建模也是一个体力活
2.找好场地，最好能保证周六通宵
找能够说话讨论的地方
3.避免因为个人原因影响团队合作，多与队友协商
4.放低心态
数学建模还是有难度的

2.如何选题

2.1 赛题类型

赛题：
本科组ABC任选一道，专科组DE题，也可以选ABC
A题偏向物理/工程类

专业性强，往往有标准答案，适合相关专业人士
需要配合物理定律使用微分方程和偏微分方程
神经网络/遗传算法等求求较优解的启发式算法一般不适用。
热力学等物理题可以先建立一个非常简陋的模型，再根据题目中的要求，一点一点改进。
B题题型不定
C题偏向经管/运筹/统计/数据分析等
赛题较为开放易懂
运筹等优化问题一般没有严格最优解，结果合理即可
数据往往需要自己找。

2.2 排除背景都看不懂的题

如果背景描述的语句都读不懂则优先排除

A题往往涉及较为深入的理工科的知识，如果不是相关专业，那些学术名词都不一定懂
有些大体能读懂、具体名词不明白的，可以先试试查明关键词意义再考虑
例如：2017年A题，关于CT关系参数标定，若连CT系统成像的基本过程都搞不懂、不了解基本的滤波反投影，就不适合该题。

2.3 定题原则

少数服从多数。

多讨论，轮流发表意见

先查资料文献，优先考虑资料较多的，

查询途径有书籍、知网、百度、谷歌。

啥都不会的就选C题，起码题目易懂。
尽量在开赛6小时内1定题，不要轻易换题。
即使写到一半发现写不出来，编也要编一篇完整论文上去。

3. 搜索技巧

以百度为例
完全匹配搜索：查询词的外边加上双引号“”

中英文都可以
要求标题含有关键词：查询词前加上intital
冒号为英文冒号
搜索文档：例如查询后空格再输入filetype:文件格式（doc/pdf/等等）
去除不想要的：查询词后面加空格后加减号与关键词

4.查文献技巧

4.1 知网

先看知网的硕博士论文

硕博士论文会对研究的问题和基础知识介绍，可以帮助我们快速解决问题
按照被引用次数排序
高级检索：想了解神经网络在信贷策略中的应用，想找一些相关的硕博论文。

进入高级检索界面，+和-可以自定义增加和减少检索字段
主题为：企业信贷
OR主题为：信贷策略
AND关键词为：神经网络，词频为，模糊，目的是为了让出现的检索词只要出现了即可
检索结果可按相关度或被引排序

4.2 其他

谷歌学术镜像
Open Access Library

文章都来自顶级的出版商和数据库，可以满足各个领域的学者要求
所有文章免费

5.数据查询

优先在知网、谷歌学术等平台搜索
国家统计局
最全面，月度季度年度，各地区部门各行业，包罗万象。
其他国家相关部门大多数都有数据分页，有需要的话也可以查找。
国家统计局

awesome-public-datasets

github的一个开源项目，包含了经济、地理、能源等你能想到的所有领域的数据
awesomedata
EPSDATA平台
EPSDATA平台有丰富的数据资源和大量分析处理过的数据，虽然是收费的，不过可以申请7天试用。
EPSDATA官网
其他
国家信息中心，kaggle，和鲸社区

6.数据预处理

6.1 缺省值

比赛提供的数据，发现有些单元各是NULL/空的
缺省值太多，例如调查人口信息，发现年龄这一项缺省了40%，就直接吧该项删除
最简单的处理：均值、众数插补

定量数据，例如关于一群人的身高、年龄等数据用整体的均值补缺失。
定性数据，例如关于一群人的性别、文化程度；某些事情调查的满意度，用程序次数最多的值来补缺失
适用赛题：人口的数量年龄、经济产业情况等统计数据，对个体的精度要求不大的数据

Newton插值法

根据固定公式，构造近似函数，补上缺失值，普遍适用性强。
缺点：区间边缘处的不稳定震荡，即龙格现象。不适合对导数有要求的题目
适用赛题：热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据

样条插值法

用分段光滑的曲线去插值，光滑意味着曲线不仅要连续，还要有连续的曲率
适用赛题：零件加工，水库水流量，图像“基线漂移”，机器人规矩等精度要求高、没有突变的数据

6.2 异常值

找到异常值后的处理方法与处理缺失值相同
样本中明显和其他数据差异较大的数据，例如一群人的身高数据有个5米的
正态分布3σ原则

数值分布（μ-3σ，μ+3σ）中的概率为99.73%，其中μ为平均值，σ为标准差
求解步骤：1.计算均值μ和标准差σ；2.判断每个数据值是否在μ-3σ，μ+3σ）内，不在则为异常值
适用题目：总体符合正态分布，例如人口数据、测量误差，生产加工质量等
不适用题目：总体符合其他发布，例如公交车站人数排队人符合泊松发布
画箱型图
箱型图中，吧数据从小到大排序。下四分位数Q1是排第25%的数值，上四分位数Q3是排第75%的数值
四分位距IQR = Q3-Q1也就是排名第75%-第25%的数值
与正态分布类似，设置一个合理区间，在区间外就是异常值
一般设[Q1-1.5*IQR，Q3+1.5*IQR]内位为正常值
适用题目：普遍适用

7.如何建模

7.1 什么是模型

有理论基础
有推导过程
有最终结论
以文字描述、数学公式、图像表格展现出来
在建模过程中，整篇论文，很多思路，模型都是从参考文献和书籍搬过来的

7.2 建模过程

一篇完整的数模论文

包括摘要，问题出述、模型假设和符合说明、模型建立与求解、模型的优缺点与改进方法、参考文献和附录

摘要
要让读者看完摘要就知道论文研究的问题，用了什么方法求得了什么结果，以及每一部分的大致步骤。
问题重述：
将问题简述一遍即可，并不重要。注意不要复制粘贴，避免查重。
模型假设和符号说明

好的假设能让你事半功倍
例如某一年中一天太阳的投影问题，影子的长度不仅与地球自转有关系还和地球公转有关，但是地球公转对影子的影响远远小于自转，所以可以在模型假设里说明“忽略公转对影子的影响”
符号说明将论文中定义的重要符号列出表格说明即可。
模型的建立
一组公式，和对公式中的每个变量的解释，就是一个模型。
先查阅资料，看作资料，用自己的话复述一个简单的模型，在根据题目中的约束条件去一步步修改模型，把题目中的变量待人模型中去。
模型的优缺点与改进方法
这一部分不是必须的，可以简单分析一下前文模型的优缺点，若没有改进的方法也可以不写
结合查到的文献，分析正文中的模型在正文中的模型常用在什么问题中，又与本文所求解的问题有何区别
参考文献
格式有点要规范
知网检索结果右侧有引用按钮，打开后复制即可
附录
附录里要写正文中求解时用到的代码
一定不要把网上搜到的代码直接复制粘贴（会有查重的，可以修改下变量名）