统计学模型变量类型详解教程
一、外生变量(Exogenous Variable)
(一)定义与别名
外生变量是模型中不受其他变量影响的独立变量,通常充当自变量。其常见的别名有:
- 外部变量(External Variable)
- 预测变量(Predictor Variable)
- 独立变量(Independent Variable)
(二)核心特点
- 自变量属性:作为模型中引发变化的源头,直接对其他变量产生影响,自身不受模型内任何变量的作用。
- 方向性:在路径图里,外生变量仅发射箭头(→)指向其他变量,不会接收箭头。
- 类型灵活性:既可以是能够直接测量的观察变量,比如年龄、性别;也可以是抽象的潜变量,例如社会经济地位 。
(三)示例与应用
示例:在研究“学习动机(外生潜变量)”对“学业成绩(内生变量)”的影响时:
- 外生变量:学习动机(通过量表测量,如学习时长、问题解决积极性等方面体现)。
- 路径关系:学习动机 → 学业成绩。
注意事项:外生变量之间可能存在相关性(如年龄与收入相关),但模型并不对这种相关性的来源进行解释。
二、内生变量(Endogenous Variable)
(一)定义与别名
内生变量是模型中受其他变量影响的因变量,其别名包括:
- 内部变量(Internal Variable)
- 因变量(Dependent Variable)
- 标准变量(Criterion)
注意:原文档中“独立变量(Dependent Variable)”为笔误,正确的应为“因变量”。
(二)核心特点
- 因变量属性:内生变量的变化由其他变量(外生变量或其他内生变量)所引起。
- 方向性:在路径图中,内生变量只接收箭头(←),并且必须添加残差项(Residual),用于表示未被解释的变异,比如误差或遗漏变量等情况。
- 链式反应:内生变量有可能进一步对其他内生变量产生影响,从而形成复杂的路径关系。
(三)示例与应用
示例:在研究“学习动机(外生变量)→ 学习策略(内生变量)→ 学业成绩(内生变量)”时:
- 学习策略:接收来自学习动机的箭头,并发射箭头指向学业成绩。
- 学业成绩:接收来自学习策略的箭头,同时需添加残差项(如e1) 。
公式表示: Y = β X + ϵ Y \ = \beta X + \epsilon Y =βX+ϵ,其中,Y为内生变量,X为外生变量,ε为残差。
三、中介变量(Mediator Variable)
(一)定义与作用
中介变量是自变量(X)与因变量(Y)之间的传递桥梁,用于解释“X如何影响Y”。
- 直接效应:即X → Y 的直接影响,例如学习动机直接提升成绩。
- 中介效应:也就是X → 中介变量(M)→ Y 的间接影响,比如学习动机通过改进学习策略间接提升成绩。
(二)路径分解
假设模型为:
X → a M → b Y X \xrightarrow{a} M \xrightarrow{b} Y XaMbY
X → c Y X \xrightarrow{c} Y XcY
- 总效应 \ = 直接效应(c) + 中介效应(a×b)。
- 验证中介效应:需要检验路径系数a、b是否显著,常用方法如Bootstrap法。
(三)示例与应用
示例:在研究“社交媒体使用(X)→ 焦虑水平(M)→ 睡眠质量(Y)”中:
- 中介变量:焦虑水平(M)起到传递社交媒体使用对睡眠质量影响的作用。
- 直接效应:社交媒体使用可能会直接对睡眠质量产生影响,比如蓝光干扰等情况 。
图示:
X(社交媒体)
│
├─→ M(焦虑)─→ Y(睡眠质量)
└─→ Y(睡眠质量)
四、调节变量(Moderator Variable)
(一)定义与作用
调节变量是影响自变量(X)与因变量(Y)之间关系的强度或方向的变量。它主要回答“在什么条件下?”或“对哪些群体?”X对Y的影响会增强、减弱甚至反转。
核心特点:
- 调节效应:通过交互作用(X×M)来体现,也就是自变量与调节变量的乘积项。
- 非传递性:调节变量本身并不会传递X对Y的影响(这与中介变量不同),而是改变X→Y的路径属性。
- 类型灵活:可以是分类变量,例如性别、实验组别;也可以是连续变量,比如年龄、收入 。
(二)路径表示与检验方法
1. 路径图示例
X(自变量)──────→ Y(因变量)
│
调节变量(M)
│
交互作用(X×M)────→ Y
交互作用项(X×M)的系数能够反映调节效应的大小和方向。
2. 检验步骤
- 步骤1:中心化处理(对连续变量X和M进行去中心化操作,以避免多重共线性问题)。
- 步骤2:构建回归模型: Y = β 0 + β 1 X + β 2 M + β 3 ( X × M ) + ϵ Y \ = \beta_0 + \beta_1X + \beta_2M + \beta_3(X \times M) + \epsilon Y =β0+β1X+β2M+β3(X×M)+ϵ
- 步骤3:若交互项系数(β₃)显著(p<0.05),则说明调节效应存在。
(三)实际案例
研究场景:探究“学习动机(X)”对“学业成绩(Y)”的影响是否会因“教师支持(M)”水平的不同而发生变化。
- 调节变量:教师支持(分为高/低分组)。
- 结果解释:
- 若β₃>0:表明教师支持水平越高,学习动机对成绩的促进作用就越强。
- 若β₃<0:意味着教师支持水平越高,学习动机对成绩的作用反而会减弱。
五、四类变量的对比与联系
特征 | 外生变量 | 内生变量 | 中介变量 | 调节变量 |
---|---|---|---|---|
方向性 | 只发射箭头 | 只接收箭头 | 接收并发射箭头 | 通过交互项影响路径 |
核心作用 | 自变量,引发变化 | 因变量,被解释 | 解释“如何”影响 | 解释“何时/对谁”影响 |
统计检验 | 路径系数显著性 | 路径系数+残差检验 | 中介效应Bootstrap检验 | 交互项系数显著性 |
示例 | 年龄、政策干预 | 学业成绩、满意度 | 焦虑水平、学习策略 | 性别、教师支持 |
六、模型构建要点
(一)模型识别
要确保自由度≥0,也就是方程数≥参数数,防止出现模型不可识别的情况。
(二)残差项意义
内生变量的残差代表着未被解释的变异部分,需要检验其是否合理,比如方差需满足非负的条件。
(三)中介与调节效应区分
- 中介变量:主要用于解释自变量到因变量的作用机制,例如学习动机→学习策略→成绩。
- 调节变量:则是界定自变量到因变量关系的边界条件,比如教师支持水平不同时,动机对成绩的影响也会不同。
(四)交互项处理
- 分类变量调节:需要进行分组分析或者构建虚拟变量。
- 连续变量调节:一定要进行中心化处理,避免出现共线性问题 。
(五)简单斜率分析
当调节效应显著时,需要进一步计算在不同调节变量水平下,自变量到因变量的简单斜率。例如,绘制“高/低教师支持”组中学习动机与成绩的关系图 。
七、总结
外生变量是模型的起始点,内生变量是终点,中介变量如同路径中的桥梁,而调节变量则像是路径的开关。这四类变量共同构建出复杂的因果网络,在实际研究中,需要紧密结合理论假设与统计检验,才能准确区分它们各自的角色。同时,我们可以借助结构方程模型(SEM)或回归模型,对中介与调节效应同时进行检验,从而更加精准地解析数据背后的因果关系。