读脸知心——基于transformer的多模态自适应网络的抑郁水平智检系统

来源: 阅读:198668 发布:2024-03-12 13:49:27

国家经济的快速发展和生活节奏的加快,使得人们在工作、生活中承受了越来越大的压力。长期处于高压力状态下,人们的身体和心理会受到影响,从而导致抑郁症等精神健康问题的增加。同时能够提供专业心理咨询服务的心理咨询师不到3万人,具有极大的缺口。在此背景下,华侨大学创新创业实践团队研发了基于Transformer的多模态自适应网络的抑郁水平智检系统。通过结合音频和视频,利用Transformer模型和机器学习算法,实现对用户抑郁水平的智能检测和评估,积极响应国家政策号召,富有现实意义。

在面部信息方面,以往研究发现抑郁症患者在处理面部表情方面存在神经认知缺陷,这种特征可用于区分抑郁症和非抑郁症个体。此外,对情感面孔的神经和瞳孔反应被认为是青少年重度抑郁症的生理标志,甚至在症状缓解后仍存在,可能成为抑郁症复发的风险标志物(Karen等人,2012;Katie等人,2017)。

在语音信息方面,早期研究由Kuny等人在1993年进行,评估了声音特征与抑郁症综合征的高度相关性。进一步的研究提出了重度抑郁症症状量表(SMDDS),将患者的声音纳入抑郁症临床试验的治疗效果评估中。最近的研究通过提取语音中的情绪成分,如活力和活力趋势,开发了高精度的抑郁症评估方法(Shinohar等人,2021;Masakazu等人,2022)。主成分分析进一步将语音特征组合,成功开发了基于语音特征的重度抑郁症检测方法,取得了良好的诊断准确率(Masakazu等人,2022)。

https://img2.danews.cc/upload/ajax/20240312/b954d6812eafad192a7c3e046f5c97a9.png

抑郁水平检测方法对比

https://img2.danews.cc/upload/ajax/20240312/c357d5851e32f1ca29f23d978f7bfa99.png

抑郁水平检测方法对比

在处理时间序列方面,循环神经网络模型(RNN)取得了最大的成功,但事实上循环神经网网络(RNN)很难从长序列的始听数据中提取长期的时间上下文信息。研究表明RNN在短跨度下的预测是比较准确的,但是一旦跨度过长,预测便会失真。因此专家学者在RNN基础上,采用了其特殊模型长短期记忆网络(LSTM)和门控循环单元(GRUS)。Qureshi,S.A通过传统的LSTM结构来获得每个单一模态的序列特征,以此估计抑郁的水平。即使如此,上述的结RNN构仍有一个缺陷,如序列的前部信息在传递至n后,信息权重下降,导致重要信息的丢失,这也是我们常说的RNN的遗忘问题。

多模态融合策略可以概括为早期融合和后期融合两种类型。这两种方法分别在特征层面和决策层面进行数据融合。目前,大部分信息融合方法倾向于采用早期融合。Rodrigues Makiuchi,M从原始语音音频中生成文本时使用了Google Cloud的语音识别服务,并从预训练的BERT模型中提取隐藏嵌入,同时将这些信息与其他模态连接起来,除了采用音频、视频和文本作为模态外,还有一些方法,如将肢体动作作为早期融合的一个模态。对于后期融合,最具标志性的方法是AVEC 2019 DDS挑战赛的基线模型,该方法首先从每个单模态中获得结果,再取它们的平均值作为最终预测结果。然而,目前的大多数方法,无论是采用早期融合还是后期融合,通常未对不同模态的性能进行明确的加权处理。

基于Transformer的多模态自适应网络的抑郁水平智检系是一个创新的心理健康评估工具。该系统结合音频、视频和文本等多种数据模态,利用 Transformer模型和机器学习算法,实现对用户抑郁水平的智能检测和评估。

https://img2.danews.cc/upload/ajax/20240312/da728f961cdb5381cc8e0e5dc05aecfb.png

我们采用多任务学习,加入了一个辅助任务,即抑郁分类,通过这一辅助任务为抑郁水平回归的这一主要任务提供额外的支持、补充或增强。为了融合不同模态特征的结果并自适应地调整每种特征的权重,团队采用了提出的后期融合策略来融合每个特征的结果。这种自适应后期融合方法旨在提高高性能特征的权重,降低低性能特征的权重。这种方法基于对每个特征的贡献度进行动态调整,使得具有更高性能的特征在融合过程中承担更大的作用,而低性能特征则承担较小的作用。