策划书格式模板_抖音开放平台是什么意思_2024年小学生简短小新闻_磁力吧最佳搜索引擎

1 概念名词：

1.1 双变量分析与单因素分析

1.2 变化

1.3 相关分析 Correlation analysis

1.4 回归分析 Regression analysis

1.5 相干和相关

1.5.1 相干relevant

1.5.2 相关Correlation

2 双变量分析，也就是单因素分析

3 相关分析

4 正态分布

4.1 正态分布的参数

4.2 标准化数值得目的

5 回归分析

5.1 定义：IV是否时DV的原因？

5.2 因果分析/回归分析，比正态分布的均值的预测更准

5.3 非标准回归和标准回归系数

5.4 OLS

6 合力的影响

7 多因子回归‘

8 多变量分析，也就是多因子回归分析

关于数学

对数回归

K2检验

自由度

概率本身的乐趣

什么叫显著

二维表

量化与数据

1 概念名词：

1.1 双变量分析与单因素分析

双变量分析，和单因素分析有一定差别，包含下面2种情况

双变量分析：单自变量-单因变量的回归，两个变量的相关分析
单因素分析：单因素回归(单自变量-单因变量的回归)

1.2 变化

变化 vary
共变 convary
共变得方式，共变得强度

1.3 相关分析 Correlation analysis

目标：两个变量是否一起变化 convery
不关心：谁先谁后，谁影响谁，谁是因果

1.4 回归分析 Regression analysis

预设：有自变量，因变量
目标：看自变量的变化，是否能引起因变量的变化

1.5 相干和相关

1.5.1 相干relevant

辩证法
1 万事万物普遍联系，
可能并不直接联系，比如有些因素通过共线性得其他因素，对因变量产生影响。
2 相干，只是一个终极本质上存在相干

1.5.2 相关Correlation

相关，在理论上相关，模型上相关，数据上相关
Correlation
Correlated
相关，不相关

2 双变量分析，也就是单因素分析

从一个变量内部的分析变成2个变量，
逻辑上是变了模型，2个变量，1个自变量，一个因变量

3 相关分析

相关，在理论上相关，模型上相关，数据上相关
Correlation，Correlated
相关，不相关
相关得方向：
相关系数：标准化后得系数。因变量B/自变量A=相关系数，相当于以A为单位。

正相关：相关系数0-1之间。
负相关：相关系数0—1之间
不相关，没有系统得关系，只有看起来随机性得关系

相关的强度：相关系数的值。-1 ~1 之间。0是不相关。
相关的显著度：是否有系统性，非随机的关联？

4 正态分布

4.1 正态分布的参数

均值
标准差（sqrt-方差）
标准值=( x-u)/sd 即以sd为量纲
标准值，其实就是概率了，或者可以一一对应为概率了
标准值，就是用标准差来横向每个数值与均值得距离，是n个多少个标准差。
标准正态分布，其实就是标准值得分布曲线。

4.2 标准化数值得目的

是为了去除量纲得影响。
标准值也是
通过这种标准值得公式操作
所有的数值，最后都是相关一套坐标系：标准正态分布的相同的量纲比较。

5 回归分析

5.1 定义：IV是否时DV的原因？

自变量： DV ,dependent variable
因变量： IV, Independent variable

5.2 因果分析/回归分析，比正态分布的均值的预测更准

正态分布时，如果不引入其他因素，如何预测将来的值最准呢？
用平均值预测，最终，总TSS误差和最小。
总TSS=用每个值去预测将来，产生的误差，之SUM
是否可以预测得更准？
如果可以引入其他值，是否可以预测得更准？
可以，OLS，就是干这个事情得

可以尝试画一个图

就是
横轴：自变量，
纵轴：因变量，
纵轴上画一条与横轴平行的线，就是均值线，应该是最小的TSS
画多条与横轴平行的线，非均值线，应该总误差和TSS会变大
一条斜线，线性预测，就是线性回归的结果，这个OLS的误差和变小。
线性回归里， RSS/TSS，其实是以TSS均值的0因素分析为基础的。

5.3 非标准回归和标准回归系数

Unstandardlized coefficients, 非标准化回归系数，够用。反应的就是因变量/自变量的系数，自变量每变化1单位变化（1就是单位变化，如果想是5作为单位变化，继续/5，最后再还原），因变量变化多少。
standardlized coefficients，以各种标准差为单位。就是自变量每变化1个单位的自己的标准差，因变量变化多少个单位的自己的标准差长度。
建模，简单的来说，就是写函数，列方程等等。

5.4 OLS

O ordinary
Least 最小
Square sum of squares
回归系数的显著度检测，就是指系统的 systematic，非随机的non-random
因此才显著，值得研究去关注，是显著的自变量

著名图

2个自变量 IV1 IV2
1个因变量，DV
3个圆交叉。

F是3者交叉的
第1个模型方程：单因素回归分析1
D+F，是自变量1的回归系数

第2个模型方程：单因素回归分析2
G+F，是自变量2的回归系数

第3个模型方程：
而如果是多因素回归
D，是自变量1的净影响，回归系数
G，是自变量2的净影响，回归系数
F，是自变量1和2共同作用的的影响，不计入各自的净影响
所以，多因素线性回归里的，单个自变量的系数 != 单因素线性回归里的自变量的系数

1 拿平均值就可以来预测，但是误差是TSS
2 OLS，最小二乘回归法，预测后的总误差会下降，RSS ESS TSS
3 那个T值，其实就是做成标准正态分布之后的概率直接比较
4 后面是一个按比例比较
5 K2检验
6 LOG对数回归
7 最大似然估计，已经发生的发生的就是概率最大的

相关 correlate
相干 relevantLogit 是把发生率α/(1-α) 然后取自然对数来做的 loge α/(1-α)=ln(α/(1-α))
把数值的范围，标准化了，变成了-9 -9之内

6 合力的影响

会有回归系数，R，R**2
这个判断系数，告诉我们的是多个因子合力的影响的评判
而不是某个因子的净影响。

7 多因子回归‘

还有一种社会学常用的方法
就是不能测试自变量，
而需要把自变量拆为多个更小的因子。进行因子分析。

旋转因子，就是假设认为是有关联的，旋转因子，让每个因子都互相正交/垂直/0相关/方差最大化。避免这些因子互相是共线的。

8 多变量分析，也就是多因子回归分析

研究
1因1果
多因1果

不研究
1因多果
保护函数，映射也是一样的，只看漫射，单射等等。

多元线性回归，多因子回归，多自变量回归，都一个意思
和
单因子回归分析差别
1 相同：还是有因果关系
2 不相同：几个自变量之间，必须是独立的影响因变量。
也就是自变量之间，不存在共线性。

分析
1 每个因素的参数，偏回归系数，净回归系数
有点偏导数，净导数的意思了
Partial regression coefficient

关于数学

1 乘法的本质是加法
2 积分的本质也是加法，连续内容的相加不能用乘法

对数回归

就是
发生率=某个事件发生的概率/此事件不发生的概率。
坐上时光机去回溯，或者就是思想试验
这个思想试验，是一个模型，就是认为现在往回去倒推，过去自变量和因变量的关系，现实应该是其中发生概率最大的可能对应的那个事件。如果推导不是这也，那就错了。
这个就是极大似然估计。

发生率的对然对数回归
Ln(α/(1-α))

现在的可能性—针对是未来，概率，probility
过去的可能性—针对是过去，使然，likehood

为什么要用对数回归
如果纯都是定量数据就没问题
但是一旦里面混入了定性/定类数据，就有了问题
用线性回归，会出现负数系数，负数截距等，逻辑上不可能的情况

因为必须改成曲线回归
如何做曲线回归，很难
变换成其他直线回归
就是用对数
概率，转化为发生率，发生率的自然对数。Log of it =p/(1-p)
发生率不对称，因为是比率，分母分子变化不对等
0.9/0.1=9 变化大，发生率变化小
0.99/0.01=99
0.999/0.001=999
0.9999/0.0001=9999 微量变化小，反而发生率变化很大。

E=2.718
所以用自然对数，变成稳定的-9~9之间了

K2检验

K2检验
查表
1 和自由度相关
2 和K2的值的大小有关系
自由度越大，单元格总数越多，K2的值得可能越大
看经典的K2的曲线。
自由度比较小的时候，单调下降
自由度比较大之后就开始接近正态分布的钟形曲线了，超过20接近正态
T值检验T值也和自由度有关系，但关系比较松散不用太关心。
因为T检验一般检验连续变量，连续变量自由度很容易超过20，一般不考虑这个限制。
一般自由度越大的K2曲线，K2的值，均值都会更大。

K2=Σ(观察值-预期值)^2/预期值
K2=(O1-E1)^2/E1+(O2-E2)^2/E2+…..+ (On-En)^2/En

K2值独立检验
先检验，算出来了确定的K2值的结果下，来判断，
如果自由度小，K2一般越大，越表示发生的概率小。
因而根据最大似然估计，推测现在不可能是小概率发生，从而用K2检验拒绝了原来的假设。
极大似然估计认为，现在一定是在过去那个事件点发生的概率最大！

举得例子，
整体员工里，黑人和白人的比例，60：40
经理员工里，黑人和白人的比例，4：20

假设前提，55开
也就是，每个黑人和白人都是50%可能成为经理
那么
假设员工人数里，就是合理现状，往下推论
实然的世界：是经理的现状4/20，SUM=24
应然的世界：60*0.5=30 / 20*0.5=10=3：1 ，SUM里应该分布是18/6 黑人经理/白人经理
从而说明有问题，应然和实然差距太远

但是差距多远，算是远呢？

自由度

计算方法
(行数-1)*(列数-1)
理解
就是一个交叉表里，可以自由确定数值的格子的数量

交叉表
Cross tabulation
经常展示定类变量和定勋变量的关系。
1个变量，行
1个变量，列
交叉，就是相乘，情况相乘= 组合的数量

比如2*2表
自由度=(2-1)*(2-1)=1*1=1
   变量1*T   变量1*F   SUM
变量2* T   α   1-α   1
变量2* F   1-α   α   1
SUM   1   1

自由度=(2-1)*(3-1)=1*2=2
自由度，就是可以自由取值的交叉表里单元格的数量
   变量1*A   变量1*B   变量1*C   SUM
变量2* T   α   β   1-α-β   1
变量2* F   1-α   1-β   α+β   1
SUM   1   1   1

概率本身的乐趣

钟形曲线，是天网恢恢，疏而不漏
负无穷-正无穷，中间是0

对应钟形曲线下围成的面积，概率是0到1之间
50%，五五开，是中间点
往高，接近1
往低，接近0，逼近0

在OLS里，平均值就是参照线。
对数回归中，五五开的概率是参照线

策略的
切实性，确实测量的方法够合适，不大不小，可测等等
可靠性，反复测试，结果要稳定

什么叫显著

个体
二维表
横向，一个个体的多个属性（只挑一些）
纵向，一个属性的组成的线/

也就是结果的正确/正义无法保证
只能从过程的正确/正义上去保证

显著，只是说两者存在，非随机的关系。
不等于重要，或者其他

二维表

个体两方面
1 多个个体
2 多个属性/特征，每个属性都有1 名字 2尺度
个体
二维表
横向，一个个体的多个属性（只挑一些）
纵向，一个属性的组成的线/

量化与数据

数据种类一，界面数据
数据种类2，时序类数据
也说明了，公平也一样，只有过程的公平，没有结果的公平。
但是这个又在变化，继续下一次的过程。

正态分布/自然分布也说了这个问题，一定是中间大，两头小。
而且钟形曲线是无限的，天网恢恢，苏而不漏。

策划书格式模板_抖音开放平台是什么意思_2024年小学生简短小新闻_磁力吧最佳搜索引擎

1 概念名词：

1.1 双变量分析与单因素分析

1.2 变化

1.3 相关分析 Correlation analysis

1.4 回归分析 Regression analysis

1.5 相干和相关

1.5.1 相干relevant

1.5.2 相关Correlation

2 双变量分析，也就是单因素分析

3 相关分析

4 正态分布

4.1 正态分布的参数

4.2 标准化数值得目的

5 回归分析

5.1 定义：IV是否时DV的原因？

5.2 因果分析/回归分析，比正态分布的均值的预测更准

5.3 非标准回归和标准回归系数

5.4 OLS

6 合力的影响

7 多因子回归‘

8 多变量分析，也就是多因子回归分析

关于数学

对数回归

K2检验

自由度

概率本身的乐趣

什么叫显著

二维表

量化与数据

最新新闻

热搜词

策划书格式模板_抖音开放平台是什么意思_2024年小学生简短小新闻_磁力吧最佳搜索引擎

1 概念名词：

1.1 双变量分析与单因素分析

1.2 变化

1.3 相关分析 Correlation analysis

1.4 回归分析 Regression analysis

1.5 相干和相关

1.5.1 相干relevant

1.5.2 相关Correlation

2 双变量分析，也就是单因素分析

3 相关分析

4 正态分布

4.1 正态分布的参数

4.2 标准化数值得目的

5 回归分析

5.1 定义：IV是否时DV的原因？

5.2 因果分析/回归分析，比正态分布的均值的预测更准

5.3 非标准回归 和标准回归系数

5.4 OLS

6 合力的影响

7 多因子回归‘

8 多变量分析，也就是多因子回归分析

关于数学

对数回归

K2检验

自由度

概率本身的乐趣

什么叫显著

二维表

量化与数据

最新新闻

热搜词

5.3 非标准回归和标准回归系数