AI在线 AI在线

大模型基准

填补多语言语音幻觉检测空白,CCFQA基准助力评估大模型跨语言与跨模态事实一致性

论文标题:CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation(AAAI 2026)论文链接:::(MLLMs)在多语言环境中的日益普及,确保无幻觉的事实准确性变得尤为重要。 然而,现有评估可靠性的基准主要集中在以英语为主的文本或视觉模态,这导致在处理多语言输入(尤其是语音)时存在评估空白。 为弥补这一不足,哈尔滨工业大学社会计算与交互机器人研究中心知识计算组和鹏城实验室数据智能研究所联合发布跨语言跨模态事实性基准(CCFQA),以推动具备更可靠语音理解能力的MLLMs发展。
11/17/2025 3:06:00 PM
新闻资讯

GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

Creation-MMBench 基准覆盖四大任务类别、51 项细粒度任务,用 765 个高难度测试案例,为 MLLMs 的“视觉创意智能”提供全方位体检。
4/4/2025 12:18:37 PM
汪淼

中国联通业界首次提出大模型能力边界量化基准,避免“高射炮打蚊子”情况

相关研究成果以 <What is the Best Model? Application-Driven Evaluation for Large Language Models> 为题发表在自然语言处理权威会议 NLPCC 2024 上,相应的评估基准已向业界开源。
12/27/2024 9:43:47 PM
汪淼