大模型基准
填补多语言语音幻觉检测空白,CCFQA基准助力评估大模型跨语言与跨模态事实一致性
论文标题:CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation(AAAI 2026)论文链接:::(MLLMs)在多语言环境中的日益普及,确保无幻觉的事实准确性变得尤为重要。 然而,现有评估可靠性的基准主要集中在以英语为主的文本或视觉模态,这导致在处理多语言输入(尤其是语音)时存在评估空白。 为弥补这一不足,哈尔滨工业大学社会计算与交互机器人研究中心知识计算组和鹏城实验室数据智能研究所联合发布跨语言跨模态事实性基准(CCFQA),以推动具备更可靠语音理解能力的MLLMs发展。
11/17/2025 3:06:00 PM
新闻资讯
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
Creation-MMBench 基准覆盖四大任务类别、51 项细粒度任务,用 765 个高难度测试案例,为 MLLMs 的“视觉创意智能”提供全方位体检。
4/4/2025 12:18:37 PM
汪淼
中国联通业界首次提出大模型能力边界量化基准,避免“高射炮打蚊子”情况
相关研究成果以 <What is the Best Model? Application-Driven Evaluation for Large Language Models> 为题发表在自然语言处理权威会议 NLPCC 2024 上,相应的评估基准已向业界开源。
12/27/2024 9:43:47 PM
汪淼
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
苹果
AI for Science
算法
Agent
腾讯
Claude
芯片
Stable Diffusion
具身智能
蛋白质
xAI
开发者
人形机器人
生成式
神经网络
机器学习
3D
AI视频
RAG
大语言模型
Sora
百度
研究
字节跳动
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
DeepMind
特斯拉
场景
深度学习
Transformer
架构
Copilot
MCP
编程
视觉