目录
1 概念名词:
1.1 双变量分析与单因素分析
1.2 变化
1.3 相关分析 Correlation analysis
1.4 回归分析 Regression analysis
1.5 相干和相关
1.5.1 相干relevant
1.5.2 相关Correlation
2 双变量分析,也就是单因素分析
3 相关分析
4 正态分布
4.1 正态分布的参数
4.2 标准化数值得目的
5 回归分析
5.1 定义:IV是否时DV的原因?
5.2 因果分析/回归分析,比正态分布的均值的预测更准
5.3 非标准回归 和标准回归系数
5.4 OLS
6 合力的影响
7 多因子回归‘
8 多变量分析,也就是多因子回归分析
关于数学
对数回归
K2检验
自由度
概率本身的乐趣
什么叫显著
二维表
量化与数据
1 概念名词:
1.1 双变量分析与单因素分析
- 双变量分析,和单因素分析有一定差别,包含下面2种情况
- 双变量分析:单自变量-单因变量的回归,两个变量的相关分析
- 单因素分析:单因素回归(单自变量-单因变量的回归)
1.2 变化
- 变化 vary
- 共变 convary
- 共变得方式,共变得强度
1.3 相关分析 Correlation analysis
- 目标:两个变量是否一起变化 convery
- 不关心:谁先谁后,谁影响谁,谁是因果
1.4 回归分析 Regression analysis
- 预设:有自变量,因变量
- 目标: 看自变量的变化,是否能引起因变量的变化
1.5 相干和相关
1.5.1 相干relevant
- 辩证法
- 1 万事万物普遍联系,
- 可能并不直接联系,比如有些因素通过共线性得其他因素,对因变量产生影响。
- 2 相干,只是一个终极本质上存在相干
1.5.2 相关Correlation
- 相关,在理论上相关,模型上相关,数据上相关
- Correlation
- Correlated
- 相关,不相关
2 双变量分析,也就是单因素分析
- 从一个变量内部的分析变成2个变量,
- 逻辑上是变了模型,2个变量,1个自变量,一个因变量
3 相关分析
- 相关,在理论上相关,模型上相关,数据上相关
- Correlation,Correlated
- 相关,不相关
- 相关得方向:
- 相关系数:标准化后得系数。 因变量B/自变量A=相关系数,相当于以A为单位。
- 正相关:相关系数0-1之间。
- 负相关:相关系数0—1之间
- 不相关,没有系统得关系,只有看起来随机性得关系
- 相关的强度:相关系数的值。-1 ~1 之间。0是不相关。
- 相关的显著度: 是否有系统性,非随机的关联?
4 正态分布
4.1 正态分布的参数
- 均值
- 标准差(sqrt-方差)
- 标准值=( x-u)/sd 即以sd为量纲
- 标准值,其实就是概率了,或者可以一一对应为概率了
- 标准值,就是用 标准差来横向每个数值与 均值得距离,是n个多少个标准差。
- 标准正态分布,其实就是标准值得分布曲线。
4.2 标准化数值得目的
- 是为了去除量纲得影响。
- 标准值也是
- 通过这种标准值得公式操作
- 所有的数值,最后都是相关一套坐标系:标准正态分布的相同的量纲比较。
5 回归分析
5.1 定义:IV是否时DV的原因?
- 自变量: DV ,dependent variable
- 因变量: IV, Independent variable
5.2 因果分析/回归分析,比正态分布的均值的预测更准
- 正态分布时,如果不引入其他因素,如何预测将来的值最准呢?
- 用平均值预测,最终,总TSS误差和最小。
- 总TSS=用每个值去预测将来,产生的误差,之SUM
- 是否可以预测得更准?
- 如果可以引入其他值,是否可以预测得更准?
- 可以,OLS,就是干这个事情得
可以尝试画一个图
- 就是
- 横轴:自变量,
- 纵轴:因变量,
- 纵轴上画一条与横轴平行的线,就是均值线,应该是最小的TSS
- 画多条与横轴平行的线,非均值线,应该总误差和TSS会变大
- 一条斜线,线性预测,就是线性回归的结果,这个OLS的误差和变小。
- 线性回归里, RSS/TSS,其实是以TSS均值的0因素分析为基础的。
5.3 非标准回归 和标准回归系数
- Unstandardlized coefficients, 非标准化回归系数,够用。反应的就是 因变量/自变量的系数,自变量 每变化1单位变化(1就是单位变化,如果想是5作为单位变化,继续/5,最后再还原),因变量变化多少。
- standardlized coefficients,以各种标准差为单位。就是自变量每变化1个单位的自己的标准差,因变量变化多少个单位的自己的标准差长度。
- 建模,简单的来说,就是写函数,列方程等等。
5.4 OLS
- O ordinary
- Least 最小
- Square sum of squares
- 回归系数的显著度检测,就是指 系统的 systematic,非随机的non-random
- 因此才显著,值得研究去关注,是显著的自变量
著名图
- 2个自变量 IV1 IV2
- 1个因变量,DV
- 3个圆交叉。
- F是3者交叉的
- 第1个模型方程:单因素回归分析1
- D+F,是自变量1的回归系数
- 第2个模型方程:单因素回归分析2
- G+F,是自变量2的回归系数
- 第3个模型方程:
- 而如果是多因素回归
- D,是自变量1的净影响,回归系数
- G,是自变量2的净影响,回归系数
- F,是自变量1和2共同作用的的影响,不计入各自的净影响
- 所以,多因素线性回归里的,单个自变量的系数 != 单因素线性回归里的自变量的系数
1 拿平均值就可以来预测,但是误差是TSS
2 OLS,最小二乘回归法,预测后的总误差会下降,RSS ESS TSS
3 那个T值,其实就是做成标准正态分布之后的概率直接比较
4 后面是一个按比例比较
5 K2检验
6 LOG对数回归
7 最大似然估计,已经发生的发生的就是概率最大的
相关 correlate
相干 relevantLogit 是 把发生率α/(1-α) 然后取自然对数来做的 loge α/(1-α)=ln(α/(1-α))
把数值的范围,标准化了,变成了-9 -9之内
6 合力的影响
会有回归系数,R,R**2
这个判断系数,告诉我们的是多个因子合力的影响的评判
而不是某个因子的净影响。
7 多因子回归‘
还有一种社会学常用的方法
就是不能测试自变量,
而需要把自变量拆为多个更小的因子。进行因子分析。
旋转因子,就是假设认为是有关联的,旋转因子,让每个因子都互相正交/垂直/0相关/方差最大化。避免这些因子互相是共线的。
8 多变量分析,也就是多因子回归分析
研究
1因1果
多因1果
不研究
1因多果
保护函数,映射也是一样的,只看漫射,单射等等。
多元线性回归,多因子回归,多自变量回归,都一个意思
和
单因子回归分析差别
1 相同:还是有因果关系
2 不相同:几个自变量之间,必须是独立的影响因变量。
也就是自变量之间,不存在共线性。
分析
1 每个因素的参数,偏回归系数,净回归系数
有点偏导数,净导数的意思了
Partial regression coefficient
关于数学
1 乘法的本质是加法
2 积分的本质也是加法,连续内容的相加不能用乘法
对数回归
就是
发生率=某个事件发生的概率/此事件不发生的概率。
坐上时光机去回溯,或者就是思想试验
这个思想试验,是一个模型,就是认为现在往回去倒推,过去自变量和因变量的关系,现实应该是其中发生概率最大的可能对应的那个事件。如果推导不是这也,那就错了。
这个就是极大似然估计。
发生率的对然对数回归
Ln(α/(1-α))
现在的可能性—针对是未来,概率,probility
过去的可能性—针对是过去,使然,likehood
为什么要用对数回归
如果纯都是定量数据就没问题
但是一旦里面混入了定性/定类数据,就有了问题
用线性回归,会出现 负数系数,负数截距等,逻辑上不可能的情况
因为必须改成曲线回归
如何做曲线回归,很难
变换成其他直线回归
就是用对数
概率,转化为发生率,发生率的自然对数。Log of it =p/(1-p)
发生率不对称,因为是比率,分母分子变化不对等
0.9/0.1=9 变化大,发生率变化小
0.99/0.01=99
0.999/0.001=999
0.9999/0.0001=9999 微量变化小,反而发生率变化很大。
E=2.718
所以用自然对数,变成稳定的-9~9之间了
K2检验
K2检验
查表
1 和自由度相关
2 和K2的值的大小有关系
自由度越大,单元格总数越多,K2的值得可能越大
看经典的K2的曲线。
自由度比较小的时候,单调下降
自由度比较大之后就开始接近正态分布的钟形曲线了,超过20接近正态
T值检验T值也和自由度有关系,但关系比较松散不用太关心。
因为T检验一般检验连续变量,连续变量自由度很容易超过20,一般不考虑这个限制。
一般自由度越大的K2曲线,K2的值,均值都会更大。
K2=Σ(观察值-预期值)^2/预期值
K2=(O1-E1)^2/E1+(O2-E2)^2/E2+…..+ (On-En)^2/En
K2值独立检验
先检验,算出来了确定的K2值的结果下,来判断,
如果自由度小,K2一般越大,越表示发生的概率小。
因而根据最大似然估计,推测 现在不可能是小概率发生,从而用K2检验拒绝了原来的假设。
极大似然估计认为,现在一定是 在过去那个事件点发生的概率最大!
举得例子,
整体员工里,黑人和白人的比例,60:40
经理员工里,黑人和白人的比例,4:20
假设前提,55开
也就是,每个黑人和白人都是50%可能成为经理
那么
假设员工人数里,就是合理现状,往下推论
实然的世界:是经理的现状4/20,SUM=24
应然的世界:60*0.5=30 / 20*0.5=10=3:1 ,SUM里应该分布是18/6 黑人经理/白人经理
从而说明有问题,应然和实然差距太远
但是差距多远,算是远呢?
自由度
计算方法
(行数-1)*(列数-1)
理解
就是一个交叉表里,可以自由确定数值的格子的数量
交叉表
Cross tabulation
经常展示定类变量和定勋变量的关系。
1个变量,行
1个变量,列
交叉,就是相乘,情况相乘= 组合的数量
比如2*2表
自由度=(2-1)*(2-1)=1*1=1
变量1*T 变量1*F SUM
变量2* T α 1-α 1
变量2* F 1-α α 1
SUM 1 1
自由度=(2-1)*(3-1)=1*2=2
自由度,就是可以自由取值的交叉表里单元格的数量
变量1*A 变量1*B 变量1*C SUM
变量2* T α β 1-α-β 1
变量2* F 1-α 1-β α+β 1
SUM 1 1 1
概率本身的乐趣
钟形曲线,是天网恢恢,疏而不漏
负无穷-正无穷,中间是0
对应钟形曲线下围成的面积,概率是0到1之间
50%,五五开,是中间点
往高,接近1
往低,接近0,逼近0
在OLS里,平均值就是参照线。
对数回归中,五五开的概率是参照线
策略的
切实性,确实测量的方法够合适,不大不小,可测等等
可靠性,反复测试,结果要稳定
什么叫显著
个体
二维表
横向,一个个体的多个属性(只挑一些)
纵向,一个属性的组成的线/
也就是结果的正确/正义无法保证
只能从过程的正确/正义上去保证
显著,只是说两者存在,非随机的关系。
不等于重要,或者其他
二维表
个体两方面
1 多个个体
2 多个属性/特征,每个属性都有1 名字 2尺度
个体
二维表
横向,一个个体的多个属性(只挑一些)
纵向,一个属性的组成的线/
量化与数据
数据种类一,界面数据
数据种类2,时序类数据
也说明了,公平也一样,只有过程的公平,没有结果的公平。
但是这个又在变化,继续下一次的过程。
正态分布/自然分布也说了这个问题,一定是中间大,两头小。
而且钟形曲线是无限的,天网恢恢,苏而不漏。