Cross-lingual Multimodal Explainable Sentiment Recognition Challenge
赛题介绍
随着人工智能技术的迅猛发展,情感计算在人机交互、智能客服、教育辅导等领域展现出广阔的应用前景。多模态情感分析(Multimodal Sentiment Analysis, MSA)通过融合文本、音频和视觉等模态信息,能够更准确地识别和理解人类的情感状态。 本次竞赛旨在推动跨语言多模态情感识别技术的发展,提升模型在多语言、多文化环境中的适应性与可解释能力。
本次赛题为第四届琶洲算法大赛的国际AI赛题。第四届琶洲算法大赛聚焦强化市场参与、紧盯行业前沿、聚焦赛果沉淀三大核心内容,创新铺排“空地”一体化协同AI竞技赛、AI大模型算法优选赛、AI创新应用赛、“全运会”全民AI赛、国际AI赛五大赛道,围绕人工智能大模型算法、交通出行、健康医疗、金融科技、能源管理、智能助手等领域开展激烈角逐,并鼓励国内队伍参与海外赛场竞技。大赛将广泛发动各界企业和人才共同组建项目库、人才库、算法库等,打造人工智能领域高端人才汇聚盛会、创新型企业交流盛会、科技成果转化落地平台。
竞赛主题
本次竞赛的主题为 “跨语言多模态可解释的情感识别”。参赛者需设计并实现一个多模态情感分析模型,能够处理不同语言(英语和中文)的多模态数据,准确识别情感极性,同时具备以下能力:
- 跨语言分析能力:模型需同时处理英文与中文数据,具备良好的跨语言迁移与泛化能力。
- 模型解释性:模型应能清晰说明各模态及其具体特征信息在情感识别中的贡献,提升模型的透明度与可信度。
数据集
本次竞赛提供以下两个公开的多模态情感分析数据集作为训练集:
CMU-MOSEI:由卡内基梅隆大学发布的大规模英语多模态情感分析数据集,包含超23,000个视频片段,每个片段均包含文本、音频和视频三种模态的信息。数据集具有情感极性和情绪类别这两种标签。情感极性标签的数值在 [−3, 3] 之间,主要用来衡量是情绪的正面和负面的程度。情绪类别标签包含愤怒、开心、悲伤、惊讶、害怕和厌恶6个类别,取值在 [0, 3] 之间,用来衡量情绪的显著程度。
CH-SIMS v2.0:由清华大学发布的中文多模态情感分析数据集,包含4,402个带有标注的监督数据和超过10,000个无标签的非监督数据,涵盖多种真实世界场景,强调非言语线索对情感预测的重要性。每条数据包括三模态输入及五分类情感极性标签:Strong Negative(SNEG), Weakly Negative(WNEG), Neutral(NEUT), Weakly Positive(WPOS), and Strong Positive(SPOS).
竞赛任务
参赛者需完成以下任务:
- 标签对齐:参赛者需要首先将上述两个数据集中的情感极性标签和五级情感极性分类对齐。
对于CMU-MOSEI数据集,一种可能的做法是:
- [-3.0, -2.0] → SNEG,
- (-2.0, -0.5] → WNEG,
- (-0.5, 0.5) → NEUT,
- [0.5, 2.0) → WPOS,
- [2.0, 3.0] → SPOS.
对于CH-SIMS v2.0数据集,可根据meta.csv文件中的“label”列进行转换:
- {-1, -0.8} → SNEG,
- {-0.6, -0.4, -0.2} → WNEG,
- {0} → NEUT,
- {0.2, 0.4, 0.6} → WPOS,
- {0.8, 1} → SPOS.
- 多模态情感识别模型设计:构建端到端模型,能够自动读取视频文件,提取多模态特征(文本、语音、图像),并进行情感分类预测。
- 跨语言泛化能力评估:分析模型在英文与中文数据上的性能,验证其跨语言适应性。
- 模型解释性分析:提供清晰的可视化解释,展示不同模态及其特征在最终预测中的作用。
测试数据与评估方式
测试数据说明
- 数量:250段未公开的MP4格式视频(中文,英文均有)
- 标签:SNEG, WNEG, NEUT, WPOS, SPOS(人工标注)
- 测试流程:
- 主办方将视频复制至选手项目目录中的 Test_Data 文件夹;
- 执行选手提供的 test_script.py 脚本;
- 输出预测标签至 Test_Results/label_prediction.csv,格式如下:
| ID | Label |
|---|---|
| video_001.mp4 | SNEC |
| video_002.mp4 | NEUT |
| video_003.mp4 | WPOS |
| video_004.mp4 | SPOS |
| video_005.mp4 | WPOS |
其中ID 与 Test_Data 中的视频文件名(去掉扩展名)保持一致。
- 可选输出(存储至 Test_Supplements):
- 从每条视频中提取的字幕、音频、图像帧
- 模型解释(特征重要性图、注意力分布图、反事实解释等)
提交内容
参赛者需提交以下内容:
- test_script.py:主测试脚本(包含 main 函数)
- 模型文件:可直接被 test_script.py 调用
- 源代码:包含训练、推理、评估,附运行说明(README)与依赖项(requirements.txt)
- 实验报告:详细描述模型架构、训练过程、参数设置、性能评估、人机交互机制、可解释性分析
- 演示视频(可选):展示预测流程、模型输出、多模态分析与解释过程
评审标准
评审专家将根据以下标准对参赛作品进行综合评估:
- 情感识别准确率(40%): 模型在未公开测试数据集上的表现
- 跨语言通用性(20%): 模型在不同语言中的稳定性与一致性
- 可解释性(20%): 模型对预测的解释的清晰度和有效性
- 隐私保护与安全性 (10%):是否考虑数据处理过程中的隐私保护与鲁棒性
- 创新性和实用性(10%): 模型结构设计的新颖性与实际应用潜力
奖励
前五名将获得奖金
第一名:10万
第二名:5万
第三名:2万
第四、第五名:优胜奖,1万
注意事项
评审专家将根据以下标准对参赛作品进行综合评估:
- 原创性要求:提交作品必须为参赛者原创,禁止抄袭或套用他人成果。发现违规将取消资格。
- 数据使用限制:提供的数据仅限本竞赛使用,禁止用于商业用途。
- 运行环境说明:务必附带详细说明,以便代码能顺利运行。
- 标准目录结构:请严格遵守文件命名与目录结构要求。
- 知识产权保护:主办方尊重选手知识产权,比赛结束后不公开源码。
