大模型基准

填补多语言语音幻觉检测空白，CCFQA基准助力评估大模型跨语言与跨模态事实一致性

填补多语言语音幻觉检测空白，CCFQA基准助力评估大模型跨语言与跨模态事实一致性

论文标题：CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation（AAAI 2026）论文链接：：：（MLLMs）在多语言环境中的日益普及，确保无幻觉的事实准确性变得尤为重要。然而，现有评估可靠性的基准主要集中在以英语为主的文本或视觉模态，这导致在处理多语言输入（尤其是语音）时存在评估空白。为弥补这一不足，哈尔滨工业大学社会计算与交互机器人研究中心知识计算组和鹏城实验室数据智能研究所联合发布跨语言跨模态事实性基准（CCFQA），以推动具备更可靠语音理解能力的MLLMs发展。

11/17/2025 3:06:00 PM 新闻资讯

GPT-4.5 创造力比 GPT-4o 弱，浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

GPT-4.5 创造力比 GPT-4o 弱，浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准

Creation-MMBench 基准覆盖四大任务类别、51 项细粒度任务，用 765 个高难度测试案例，为 MLLMs 的“视觉创意智能”提供全方位体检。

4/4/2025 12:18:37 PM 汪淼

中国联通业界首次提出大模型能力边界量化基准，避免“高射炮打蚊子”情况

中国联通业界首次提出大模型能力边界量化基准，避免“高射炮打蚊子”情况

相关研究成果以 <What is the Best Model? Application-Driven Evaluation for Large Language Models> 为题发表在自然语言处理权威会议 NLPCC 2024 上，相应的评估基准已向业界开源。

12/27/2024 9:43:47 PM 汪淼

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉