谣言检测文献阅读十二—A Convolutional Approach for Misinformation Identification

系列文章目录

谣言检测文献阅读一—A Review on Rumour Prediction and Veracity Assessment in Online Social Network
谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolutional neural networks
谣言检测文献阅读三—The Future of False Information Detection on Social Media:New Perspectives and Trends
谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning
谣言检测文献阅读五—Leveraging the Implicit Structure within Social Media for Emergent Rumor Detection
谣言检测文献阅读六—Tracing Fake-News Footprints: Characterizing Social Media Messages by How They Propagate
谣言检测文献阅读七—EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection
谣言检测文献阅读八—Detecting breaking news rumors of emerging topics in social media
谣言检测文献阅读九—人工智能视角下的在线社交网络虚假信息检测、传播与控制研究综述

文章目录

系列文章目录
前言
2.相关工作
3.数据集分析
4.提出的CAMI模型
- 4.1问题定义
- 4.2拟议模型
结果分析

前言

文章：A Convolutional Approach for Misinformation Identification
发表会议：International Joint Conference on Artificial Intelligence（CCF A）
时间：2017年

首先，GRU-2（MaJing 2016）不适用于输入错误信息序列有限的实际早期检测任务。有限的输入序列可能不够长，无法体现动态时序信号，因此GRU2在某些情况下无法捕获动态时序信号特性。
经过训练的RNN模型具有恒定的递归转移矩阵，并在每两个连续输入之间诱导序列信号的不可变传播，这不适用于动态和复杂场景。
上述GRU-2模型偏向于输入序列的最新元素[Mikolov等人，2011]。但关键特征不一定出现在输入序列的后部。
如上所述，基于特征工程的方法无法塑造重要特征之间复杂的高层交互，以模拟真实世界的社交媒体场景，而CNN不仅可以从输入实例中自动提取局部和全局重要特征，还可以揭示这些高层交互。此外，基于RNN的方法不能胜任早期检测任务。此外，这些方法偏向于最新的输入元素，并试图获得不变的传播序列特征，而CNN中的卷积结构和k-max池运算可以灵活地提取分散在一个输入序列中的关键特征。
我们提出了一个用于错误信息识别和早期检测任务的CAMI模型。首先，我们调查了所采用数据集中的数据分布（详见第3节），并观察了错误信息和真实信息的长尾分布。然后，基于上述观察，我们提出了一种将每个事件划分为几个阶段的适当方法。随后，所有事件都被分成几组微博帖子。通过段落向量学习各组的表示[Le和Mikolov，2014]。因此，CAMI的输入序列由一组事件组成。CAMI不仅能够从输入实例中自动提取局部和全局重要特征，揭示这些高级交互，而且能够灵活地提取分散在一个输入序列中的关键特征。最后，我们从CAMI模型的可视化实验中获得了一些观察结果，这有助于更好地理解网络空间中的人类行为，更准确地塑造现实世界的社交媒体场景。
这项工作的主要贡献如下：
我们使用无监督方法段落向量学习输入微博帖子的表示，使用有监督方法CNN自动获取错误信息和真实信息的关键特征。
我们将所提议的模型捕捉到的内容可视化，这将帮助我们理解社交媒体上的信息所具有的固有属性。
在两个真实数据集上进行的实验表明，CAMI更有效，在错误信息识别和早期检测任务方面明显优于最先进的方法。

2.相关工作

3.数据集分析

我们在两个大型微博数据集上评估模型：微博和Twitter数据集，该数据集由[Castillo等人，2011；Kwon等人，2013；Ma等人，2016]开发和使用。Twitter数据集中分别属于错误信息和真实信息的事件数量为498和494，微博数据集中分别为2313和2351。
我们调查了数据集中错误信息和真实信息的数据分布。以微博数据集为例，数据分布如图1所示。每个点代表相应时间点0.1小时内微博帖子的百分比。即使在半对数坐标中也可以显示错误信息和真实信息的长尾分布（否则曲线几乎与一般坐标重合）。

在这里插入图片描述

图1：半对数坐标下微博数据集中错误信息和真实信息的长尾分布。

4.提出的CAMI模型

4.1问题定义

给定一组事件，每个事件包括一系列相关的微博帖子，每个微博帖子都与时间戳相关联。这里的任务是在事件级别识别事件是否是错误信息，即通过分析事件的相关微博帖子序列来检测事件是否为错误信息。

4.2拟议模型

将事件的所有相关微博帖子分成几个组。
我们收集所有相关微博帖子的时间戳，并从每个事件的所有时间戳中减去相应事件的起始时间戳。然后将这些时间戳标准化为 0-1 比例。最后将整组时间戳按时间顺序平均分成 20 份，每个时间窗口公式为

在这里插入图片描述其中 $t_i$ 是第 i 个份额的终点。请注意，在某些事件中，可能有一些时间窗口组，没有任何微博帖子。

通过段落向量学习每个组的表示
我们将一个时间窗口的微博帖子视为一个事件阶段，并用一系列阶段对事件的整体特征进行建模。为方便起见，此处使用段落向量 [Le and Mikolov, 2014]。并且一个时间窗口内一组微博帖子的一个事件阶段可以看成一个段落来学习段落表示 $g_j$ ，

预测是通过softmax进行的，
给定 N 个单词的段落，单词由 W 中的列向量 $w_n$ 表示，段落由 D 中的列向量 $g_j$ 表示。此外，θ 是 softmax 参数，h 是连接或平均操作。利用上下文词和段落记忆来预测当前词。
此外，那些没有任何微博帖子的组用零向量表示。值得指出的是，该模型的输入固定大小为 20，CAMI 输入层的段落向量在后续训练过程中不会更新
通过 CNN 对高级交互进行建模。
CNN 的常用架构包括卷积层、k-max 池化层和全连接层。
图 2：CAMI 的框架。自下而上：根据分布将原始内容按时间顺序分组；学习所有组的段落向量；使用 CNN 从低级到高级提取特征。
微博数据集CAMI的参数设置为d = 72, m = [6, 4], w = [7, 5]，Twitter 数据集d = 56, m = [6, 4], w = [7, 5 ] （m，w 是特征图的数量和两层的过滤器宽度）

结果分析