假设 1 描述了一种统计场景,我们分析一组随机变量 { Y i } i = 1 n \{Y_i\}_{i=1}^n {Yi}i=1n,目的是在存在污染或对抗性噪声的情况下检测其底层分布的变化。以下是该假设的详细解释:
1. 随机变量的分布结构
每个随机变量 Y i Y_i Yi 都被建模为一个混合分布:
( 1 − ε i ) F i + ε i H i (1-\varepsilon_i) F_i + \varepsilon_i H_i (1−εi)Fi+εiHi
各符号含义:
- F i F_i Fi:随机变量的主要分布(干净数据的分布)。
- F i F_i Fi 的均值为 f i f_i fi。
- F i F_i Fi 的方差被一个上界 σ 2 < ∞ \sigma^2 < \infty σ2<∞ 限制。
- H i H_i Hi:随机变量可能受到的对抗性噪声或污染的分布(攻击者可以自由选择)。
- ε i ∈ [ 0 , 1 / 2 ) \varepsilon_i \in [0, 1/2) εi∈[0,1/2):污染比例,表示在 Y i Y_i Yi 中,来自 H i H_i Hi 的噪声的权重。
- 全局污染比例 ε \varepsilon ε 是所有 ε i \varepsilon_i εi 的上界。
这意味着每个 Y i Y_i Yi 的观测值可能由两部分组成:
- 主要分布 F i F_i Fi,权重是 1 − ε i 1 - \varepsilon_i 1−εi;
- 污染分布 H i H_i Hi,权重是 ε i \varepsilon_i εi。
直观解释:
这是一个典型的污染模型,其中数据 Y i Y_i Yi 的主要来源是 F i F_i Fi,但可能被一定比例的噪声污染。污染比例不超过 ε \varepsilon ε 且小于 1 / 2 1/2 1/2,确保 F i F_i Fi 仍是主要贡献。
2. 分布的变化和变化点检测
假设中,序列的分布 F i F_i Fi 可能会在某些位置发生变化,而这些变化点是我们希望检测的目标。
变化点结构:
假设 { η k } k = 0 K + 1 \{\eta_k\}_{k=0}^{K+1} {ηk}k=0K+1 是一个严格递增的整数序列,表示变化点的位置,满足:
- η 0 = 0 \eta_0 = 0 η0=0, η K + 1 = n \eta_{K+1} = n ηK+1=n:整个序列的起始和结束。
- f t + 1 ≠ f t ⟺ t ∈ { η k } k = 1 K f_{t+1} \neq f_t \iff t \in \{\eta_k\}_{k=1}^K ft+1=ft⟺t∈{ηk}k=1K:分布的均值 f i f_i fi 只有在变化点时才会发生变化。
- 在每个变化点之间(即区间 [ η k , η k + 1 ) [\eta_k, \eta_{k+1}) [ηk,ηk+1) 内, F i F_i Fi 保持不变: F η k = … = F η k + 1 − 1 F_{\eta_k} = \ldots = F_{\eta_{k+1}-1} Fηk=…=Fηk+1−1。
最小间隔 L L L:
L = min k = 0 K ( η k + 1 − η k ) L = \min_{k=0}^K (\eta_{k+1} - \eta_k) L=k=0minK(ηk+1−ηk)
表示两个变化点之间的最小距离,确保变化点之间有足够的间隔以便于检测。
最小变化幅度 κ \kappa κ:
κ = min k = 1 K ∣ f η k + 1 − f η k ∣ \kappa = \min_{k=1}^K |f_{\eta_k+1} - f_{\eta_k}| κ=k=1minK∣fηk+1−fηk∣
表示分布均值的最小变化幅度。如果 κ > 0 \kappa > 0 κ>0,则变化是显著的,可以通过某种检测方法识别出来。
3. 检测目标
在上述假设下,我们的目标是:
- 检测分布 F i F_i Fi 的变化点:找到所有 k ∈ { 1 , … , K } k \in \{1, \ldots, K\} k∈{1,…,K}。
- 对抗污染的干扰:即使存在来自 H i H_i Hi 的对抗性噪声,仍然要准确检测变化点。
对抗性噪声的威胁:
- 制造伪变化点:攻击者可能设计 H i H_i Hi,使得看起来像有变化点,实际上没有。
- 掩盖真实变化点:攻击者可能利用 H i H_i Hi 消除 F i F_i Fi 中的变化模式,使得变化点难以检测。
这两种威胁增加了检测问题的难度,因为攻击者可以有针对性地破坏检测算法。
4. 应用场景
在某些应用中(如网络安全、工业监控等),攻击者可能对生成过程和污染模型有了解。因此,本研究首次讨论了在这种对抗性环境下的鲁棒变化点检测问题。
总结
假设 1 说明了一种受污染的变化点检测问题:
- 数据主要来源于 F i F_i Fi,但被比例不超过 ε \varepsilon ε 的噪声 H i H_i Hi 污染。
- 目标是检测分布的变化点,即均值 f i f_i fi 的变化位置。
- 即使攻击者有能力设计 H i H_i Hi 来干扰检测,算法仍需鲁棒地检测出变化点。
该假设为讨论在对抗性环境下的鲁棒变化点检测提供了理论框架。