文章目录
- 摘要
- abstract
- 1.引言
- 2.模型方法
- 2.1文本情感分析
- 2.1.1文档级情感分类
- 2.1.2句子级情感分类
- 2.1.3方面级情感分类
- 2.2文本情感分析方法
- 2.2.1 基于词典的方法
- 2.2.2 基于机器学习的方法
- 2.2.3 基于深度学习方法
- 2.3视觉情感分析
- 2.4音频情感分析
- 2.5多模态情感分析
- 2.5.1图文方法
- 2.5.2视听方法
- 2.5.3音频-图像-文本方法
- 3.情感分析的挑战
- 3.1讥讽检测
- 3.2模态内动态
- 3.3模态间动态
- 3.4情绪强度检测
- 3.5情绪原因检测
- 4.总结和未来研究方向
- 参考文献:
摘要
本周任务主要是概述了基于深度学习技术的情感分析领域中最先进的研究成果,重点探讨了情感分析的计算方法。这些方法涵盖了不同的模态,包括文本、图像、音频,以及多模态情感分析中的各种双模态和三模态组合。研究表明,情感分析技术在多个领域,如教育、医疗健康、产品评论等,具有重要的应用价值。
abstract
This week’s task is mainly to outline the most advanced research results in the field of sentiment analysis based on deep learning technology, focusing on the computational methods of sentiment analysis. These methods cover different modes, including text, images, audio, and various two-modal and three-modal combinations in multimodal sentiment analysis. Research shows that sentiment analysis technology has important application value in many fields, such as education, medical health, product reviews, etc.
1.引言
在过去的几年里,人们主要通过文本数据来表达自己的想法。然而,仅依赖文本模态进行情感分析,有时会成为准确预测情绪的障碍。随着技术的进步,情感分析方法逐渐开始整合其他形式的数据,如音频和视频[1]。与单一文本模态相比,语音和视觉模态的情感预测凭借出色的性能被认为是强大的模型组件[2]。多模态情感分析通过集成不同模态的信息,将单一文本或图像情感分析模型与另一种模态结合,进一步提升了情感识别的能力。
近年来,研究者致力于通过多模态信号(如视觉、音频和文本)来识别多媒体内容中所表达的情感。这一趋势伴随着互联网从文本社区向多媒体社区的转变,对情感分析领域带来了革命性的变化。尽管多模态情感分析仍处于起步阶段,但它已显示出巨大的潜力,吸引了更多的行业投资和学术研究。未来,学者们可以围绕情感分析开展更深层次的探索,例如研究情感成因、推理情感变化、理解情感动机以及生成情感化对话等。
当前,情感分析的主要技术路线包括基于词典、基于机器学习和基于深度学习的方法[3]。其中,深度学习方法带来了情感分析的重大突破,但也伴随着对大量数据和上下文依赖性的需求。近年来,词汇特征、上下文特征和句法特征在情感分析任务中得到了广泛应用,而上下文网络和嵌入技术(如BERT、RoBERTa及其变体)的发展进一步提升了特征表示的效果。通过现代深度学习架构进行训练,情感分析研究正朝着新的方向迈进,包括多模态情感学习、迁移学习、多语言情感分析以及跨领域情感分类等。
为从情感模型、数据集定义和特征设计角度描述视觉情感分析系统的设计原理。Zhao等人[4]报告了现有的图像情感分析方法,并指出了情感差距和感知主观性两大主要挑战。他们介绍了情感图像内容分析(AICA)中常用的关键情感表示模型,同时概述了评估任务中使用的数据集和特征提取方法。Ortis等人[5]在其综述中分析了当前图像情感分析的研究进展,并探讨了领域内的机遇与挑战。Soleymani等人[6]则对多模态情感分析(MSA)进行了广泛研究,回顾了包括口头评论、图像、视频博客以及人机交互在内的最新进展,并讨论了这一新兴领域的未来方向。Singh等人[7]则聚焦社交媒体分析中的挑战,而Kaur等人[8]则研究了多模态情感分析的机会与局限性。这些工作表明,多模态情感分析正成为自然语言处理领域的重要研究方向。
多模态情感分析通过融合来自不同模态(如文本、图像和音频)的特征,有效利用各模态的优势,提高了情感分析的准确性和鲁棒性。每种模态的特征(例如文本的语义信息、图像的面部表情特征、音频的语调和音色特征)需要单独提取,然后通过融合方法实现多模态信息的协同。以电影评论分析为例,结合视频中的面部表情和语气信息,再与文本评论的语义特征相结合,可以更全面地分析用户对电影的情感评价。然而,当不同模态的信息存在冲突时,如何解决这些模态间的矛盾成为一个研究热点。未来的研究需要在模态融合技术、数据集构建和模型优化等方面进一步突破,以充分挖掘多模态情感分析的潜力。
2.模型方法
2.1文本情感分析
2.1.1文档级情感分类
文档级情感分类将整个文档作为关注一个主题或对象的主要信息单元,它进一步分为正极性或负极性。Das等人[9]使用支持向量机分类器从句子的主观部分对孟加拉新闻数据集进行观点极性分类。他们的系统将固执己见的短语的语义取向识别为积极或消极的情绪极性,并实现了70.04%的精确度和63.02%的召回率。Nongmeikapam等人[10]研究了Manipuri语言的文档级情感分析框架。他们从当地报纸给编辑的信中收集了用于实验的数据。使用词性标注器 (POS) 进行文本预处理,然后利用修改后的动词词典和条件随机场 (CRF) 识别动词。Thoudam Doren Singh[11]等人提出了一个使用机器学习算法和词汇特征的阿萨姆语新闻文档情感分析框架。他们从阿萨姆当地各种报纸手动收集新闻,附加了形容词、副词和动词词汇特征组合的随机森林分类器在其他分类器中达到了67%的最高准确率,他们的实验由于特征集的不充分和功能词的模糊性是造成模型的局限性的原因。
2.1.2句子级情感分类
分析限制为单个句子。Hasan等人[12]采用具有一元特征的机器学习方法对 Twitter 数据集进行二元情感分析。他们使用 SentiWordNet、W-WSD 和 TextBlob 库计算极性和主观性,使用朴素贝叶斯分类器的 Unigram 特征实现了二元分类的最高准确率79%。Zhao等人[13]提出了一种弱监督深度嵌入(WDE)情感分析框架。在评论评分数据集上训练系统,使用卷积神经网络WDE-CNN和LSTM来构建WDE-LSTM从评论句子中提取特征向量。他们所提出的系统在来自三个领域的亚马逊数据集(手机、数码相机和笔记本电脑)进行了评估。在 WDELSTM 模型上获得的准确率为 87.9%,在WDE-CNN 模型上获得的准确率为 87.7%。实验结果表明,与基线模型相比,当输入信息非常丰富时,深度学习模型具有最高的准确性。
2.1.3方面级情感分类
它是一种基于特征或基于实体的情感分类。包括识别句子中的特征和方面,并将它们分类为积极或消极。某个方面在文本中可以是明确的或隐含的,如显性方面可以直接在句子中找到,隐含的方面在句子中并不明确,但可以从情感的表达中推断出来。基于方面的情感分析由方面提取和识别、方面分组、情感分类和方面总结组成[14]。但之前很多研究一个共同局限性是它们未能修剪特征,从而导致许多不正确的特征。Wang等人[15]利用了 LSTM 机制的注意力机制。基于方面的情感分析,重点关注句子的不同方面,当不同方面作为输入时,注意力机制用于将注意力集中在句子的不同部分。他们的模型通过反向传播以端到端的方式进行训练,其中损失函数是交叉熵损失。
2.2文本情感分析方法
2.2.1 基于词典的方法
基于词典的方法进一步分为基于词典的方法和基于语料库的方法。字典方法旨在开发一个由每个单词的同义词和反义词组成的单词词典。
2.2.2 基于机器学习的方法
基于机器学习的情感分类器旨在在带注释的数据集上构建预测模型,并从中自动学习。这种方法生成每个文本文档的特征向量,其中分析某些方面或词频以训练模型,然后根据参考注释文本文档对其进行验证。
2.2.3 基于深度学习方法
深度学习作为机器学习的一部分,通过受人脑启发的多层感知机结构实现复杂特征的提取。Kim和Jeong[16]提出了一种基于卷积神经网络(CNN)的架构来处理文本情感分类。该系统由一个嵌入层、两个卷积层、一个池化层和一个全连接层组成,并使用客户评论、电影评论和斯坦福情感树库数据集进行了测试。研究表明,所提出的并行卷积神经网络架构不仅降低了计算开销,还提升了分类精度。实验得出结论:使用连续的卷积网络层处理较长文本是有效的。然而,在文档级情感分类中,生成句子之间的语义关系仍然是一个关键挑战。针对上面这一问题,Rao等人[17]开发了SR-LSTM模型。该模型的第一层使用 LSTM 提取句子向量,第二层则专注于识别句子之间的语义关系,从而有效解决了句子关系建模的难题。
迁移学习作为一种新兴的机器学习技术,通过利用现有知识解决不同领域的问题而广受关注。在情感分析领域,它无需大量的训练数据,而是通过将一个领域的知识转移到另一个领域来生成预测结果。迁移学习因其高效的结果、较高的准确性以及更少的训练时间而得到了快速发展。Hoang等人[18]利用上下文预训练的单词表示模型(如 BERT),结合微调技术和生成的文本数据,解决了领域外的基于方面的情感分析问题。他们通过预训练BERT并进行微调,探索文本和方面之间的语义相似性。尽管所提出的方面分类器模型能够处理相关和不相关的标签数据,但情感分析中的评论语言分析仍是一项具有挑战性的任务,要求对语言有深入理解。为解决这一问题,Karimi等人[19]提出了一种分层 BERT 方法。他们通过在BERT架构上增加分层和并行聚合机制,优化了方面提取和方面情感分类任务。这种方法有效地结合了语义特征提取与上下文建模,为情感分析领域提供了新的方向。
2.3视觉情感分析
视觉情感分析的目标是从视觉内容中提取与情感相关的信息。然而,由于图像的高度抽象性,让这一任务充满挑战。在计算机视觉领域,中级特征被广泛用于弥合低级视觉特征与情感导向之间的语义差距。而深度学习技术通过多层模型,将低级特征转化为更具抽象性的特征空间,从而更准确地捕捉输入图像的本质信息。这种能力为视觉内容的情感语义分析提供了全新的可能性,并推动了相关研究的发展。
2.4音频情感分析
在线社交媒体平台上发布的视频数量的增加,音频情感分析任务越来越重要。自动语音识别(ASR)技术通常用于基于语音的情感分析,将语音转换为文本。因此,情感预测主要取决于文本情感分析和自动语音识别性能。
2.5多模态情感分析
人们越来越多地使用音频和视觉(视频、图像、剪辑)方式表达其想法。多模态通过分析包含额外地视觉和音频数据信息,为传统的单模态方法增添了新的思路。其中,大多数多模态情感分析方法都侧重于模态融合方案。
2.5.1图文方法
图像-文本情感分类器通过融合图像和文本数据生成的新特征向量来预测情感。You等人[20]提出了一种结合视觉和文本信息的新型情感分析框架,主张将视觉和文本信息分别在独立的结构中处理后再进行融合。他们引入了一种基于树的 LSTM 模型,用于将视觉区域与文本单词进行对齐。通过注意力机制,LSTM 模型能够深入学习视觉和文本信息的联合表示。该方法基于句子解析构建语义树结构,精准地对齐文本单词和图像区域,从而实现更准确的情感分析。为了进一步优化,框架结合了注意力机制、LSTM 和辅助语义学习任务,学习到鲁棒的视觉-文本联合语义表示。Yu和Jiang[21]则提出了一种面向目标的多模态情感分类(TMSC)框架,利用带有注意力机制的BERT架构获取目标敏感的文本表示。他们设计了标准 BERT 模型mBERT和TomBERT扩展版本,面向目标的多模态 BERT (TomBERT) 能够有效捕捉模态间和模态内的动态特性。
2.5.2视听方法
现有的音视频多模态情感分析工作表明,视听融合主要关注人脸。Yadav等人[22]提出了视听情感分析框架,通过从视听内容中的视频和音频通道中提取情感相关信息。为了进行视觉分析,他们提取了面部表情特征并从音频数据中提取音调、停顿、响度和语音强度等音频特征。在整合特征向量后,他们根据检测到的情绪预测整体评论的情绪极性。
2.5.3音频-图像-文本方法
通过添加音频、图像和文本等多种模式使情感分析模型更加稳健。Huddar等人[23]在 IEMOCAP和CMU-MOSI数据集上上提出了一种基于注意力机制的多模态框架。他们采用上下文融合方法,从文本、音频和视频模态中提取特征,并将这些特征整合到双向 LSTM 层中,用于训练情感分类器。
多模态情感分析面临的主要挑战包括模态间动态和模态内动态的建模。模态间动态涉及语言、视觉和听觉模态之间的交互行为变化,而模态内动态则专注于探索单个模态(如音频、视频或语言)中的情感特征。研究表明,单模态、双模态和三模态的相互作用被明确地结合在模态间模型中,而声学、语言和视觉模态则通过模态内动态进行建模。
尽管借助深度学习技术在情感分析方面取得了显著的进展,但是大多数现有研究主要集中在使用不同的融合方法整合文本和视觉信息,往往忽略了文本与视觉内容之间的深层相关性。
3.情感分析的挑战
3.1讥讽检测
讽刺可以定义为说出或写出与某人的意思相反的内容,或者以一种让某人感到愚蠢或愤怒的方式说话。例如,当某人写了一些积极的内容,但内容的含义是消极的,反之亦然。这使得情感分析变得更加复杂。由于讽刺的模糊性和复杂性,检测讽刺变得具有挑战性。Wen等人[24]开发了一种讽刺检测框架,其准确率优于传统的深度学习模型,准确率为92.71%。
3.2模态内动态
多模态情感分析的另一个挑战是探索特定模态的模态内动态。当对口语进行分析时,模态内动态对于语言分析来说尤其具有挑战性。模态内动态的一个例子是“这部电影有病”这句话,它本身可能是模棱两可的,但如果说话者同时也在微笑,那么它就会被认为是积极的。另一方面,皱着眉头说同样的话会被认为是负面的。一个人大声说“这部电影有病”,仍然是含糊不清的。视觉和听觉模态还包含通过空间和时间表达的模态内动态。
3.3模态间动态
多模态情感分析的第二个挑战是探索特定模态(单模态交互)的模态间动态。多模态情感分析的核心挑战是对模态间动态进行建模:语言、视觉和听觉行为之间的相互作用改变了所表达情感的感知。当对口头意见进行多模态情感分析时,跨模态动态对于语言分析尤其具有挑战性。如“我认为没关系…嗯…让我想想…是的…不…好吧是的”之类的口头意见很少出现在书面文本中。口头意见的这种反复无常的性质使正确的语言结构变得复杂。
3.4情绪强度检测
情绪可能具有不同的强度级别,因此检测强度有助于情绪分析。比如,“我很伤心”或“我想结束自己的生命;我什么都没有了”,系统会将这两种声明标记为“悲伤”情绪。然而,两种说法中悲伤的强度是不同的。
3.5情绪原因检测
检测情绪原因可以提高检测文本或语音中正确情绪的准确性。例如,“我真高兴!下雨了!” 系统学习到他快乐的原因是下雨。
4.总结和未来研究方向
本文首先概述了基于深度学习技术的情感分析领域中最先进的研究成果,重点探讨了情感分析的计算方法。这些方法涵盖了不同的模态,包括文本、图像、音频,以及多模态情感分析中的各种双模态和三模态组合。研究表明,情感分析技术在多个领域,如教育、医疗健康、产品评论等,具有重要的应用价值。随着社交媒体中多模态内容的兴起,需要更复杂的多模态情感分析,以开发各种社交媒体分析工具。未来,相信随着各个领域的各种多模态数据集的可用性,将会出现更多令人兴奋的情感分析研究。
参考文献:
[1]Alessandro Ortis, Giovanni Maria Farinella, and Sebastiano Battiato. 2020. Survey on visual sentiment analysis. IET Image Processing 14, 8 (2020), 1440–1456.
[2]Sicheng Zhao, Guiguang Ding, Qingming Huang, Tat-Seng Chua, Björn Schuller, and Kurt Keutzer. 2018. Affective image content analysis: A comprehensive survey. (2018).
[3]Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, and Rada Mihalcea. 2020. Beneath the tip of the iceberg: Current challenges and new directions in sentiment analysis research. IEEE Transactions on Affective Computing (2020).
[4]Sicheng Zhao, Guiguang Ding, Qingming Huang, Tat-Seng Chua, Björn Schuller, and Kurt Keutzer. 2018. Affective image content analysis: A comprehensive survey. (2018).
[5]Alessandro Ortis, Giovanni Maria Farinella, and Sebastiano Battiato. 2019. An overview on image sentiment analysis: Methods, datasets and current challenges. ICETE (1) (2019), 296–306.
[6]Mohammad Soleymani, David Garcia, Brendan Jou, Björn Schuller, Shih-Fu Chang, and Maja Pantic. 2017. A survey of multimodal sentiment analysis. Image and Vision Computing 65 (2017), 3–14.
[7]Thoudam Doren Singh, Surmila Thokchom, Laiphrakpam Dolendro Singh, and Bunil Kumar Balabantaray. 2023.Recent advances on social media analytics and multimedia systems: Issues and challenges. (2023).
[8]Ramandeep Kaur and Sandeep Kautish. 2022. Multimodal sentiment analysis: A survey and comparison. Research Anthology on Implementing Sentiment Analysis Across Multiple Disciplines (2022), 1846–1870.
[9]Amitava Das and Sivaji Bandyopadhyay. 2010. Opinion-polarity identification in Bengali. In InternationalConference on Computer Processing ofOriental Languages. 169–182.
[10]Kishorjit Nongmeikapam, Dilipkumar Khangembam,Wangkheimayum Hemkumar, Shinghajit Khuraijam, and Sivaji Bandyopadhyay. 2014. Verb based Manipuri sentiment analysis. Int. J. Nat. Lang. Comput. 3, 3 (2014), 113–118.
[11]Ringki Das and Thoudam Doren Singh. 2021. A step towards sentiment analysis of Assamese news articles using lexical features. In Proceedings ofthe International Conference on Computing and Communication Systems: I3CS 2020,NEHU, Shillong, India, Vol. 170. Springer, 15.
[12]Ali Hasan, Sana Moin, Ahmad Karim, and Shahaboddin Shamshirband. 2018. Machine learning-based sentiment analysis for Twitter accounts. Mathematical and Computational Applications 23, 1 (2018), 11.
[13]Wei Zhao, Ziyu Guan, Long Chen, Xiaofei He, Deng Cai, Beidou Wang, and Quan Wang. 2017. Weakly-supervised deep embedding for product review sentiment analysis. IEEE Transactions on Knowledge and Data Engineering 30, 1 (2017), 185–197.
[14]Denilson Alves Pereira. 2021. A survey of sentiment analysis in the Portuguese language. Artificial Intelligence Review 54, 2 (2021), 1087–1115.
[15]Yequan Wang, Minlie Huang, Xiaoyan Zhu, and Li Zhao. 2016. Attention-based LSTM for aspect-level sentiment classification. In Proceedings ofthe 2016 Conference on Empirical Methods in Natural Language Processing. 606–615.
[16]Hannah Kim and Young-Seob Jeong. 2019. Sentiment classification using convolutional neural networks. Applied Sciences 9, 11 (2019), 2347.
[17]Guozheng Rao, Weihang Huang, Zhiyong Feng, and Qiong Cong. 2018. LSTM with sentence representations for document-level sentiment classification. Neurocomputing 308 (2018), 49–57.
[18]Mickel Hoang, Oskar Alija Bihorac, and Jacobo Rouces. 2019. Aspect-based sentiment analysis using BERT. In Proceedings ofthe 22nd Nordic Conference on Computational Linguistics. 187–196.
[19]Akbar Karimi, Leonardo Rossi, and Andrea Prati. 2020. Improving BERT performance for aspect-based sentiment analysis. arXiv preprint arXiv:2010.11731 (2020).
[20]Quanzeng You, Liangliang Cao, Hailin Jin, and Jiebo Luo. 2016. Robust visual-textual sentiment analysis: When attention meets tree-structured recursive neural networks. In Proceedings ofthe 24th ACM International Conference on Multimedia. 1008–1017.
[21]Jianfei Yu and Jing Jiang. 2019. Adapting BERT for target-oriented multimodal sentiment classification. IJCAI.
[22]Sumit K. Yadav, Mayank Bhushan, and Swati Gupta. 2015. Multimodal sentiment analysis: Sentiment analysis using audiovisual format. In 2015 2nd International Conference on Computing for Sustainable Global Development (INDIA Com). IEEE, 1415–1419.
[23]Mahesh G. Huddar, Sanjeev S. Sannakki, and Vijay S. Rajpurohit. 2021. Attention-based multimodal contextual fusion for sentiment and emotion classification using bidirectional LSTM. Multimedia Tools and Applications 80, 9 (2021),13059–13076.
[24]ZhiyuanWen, Lin Gui, QianlongWang, Mingyue Guo, Xiaoqi Yu, Jiachen Du, and Ruifeng Xu. 2022. Sememe knowledge and auxiliary information enhanced approach for sarcasm detection. Information Processing & Management 59,3 (2022), 102883.