视觉字幕恢复

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者张天宇，就读于加拿大Mila人工智能研究所，师从图灵奖得主Yoshua Bengio教授。博士期间的主要工作聚焦于多模态、GFlowNet、多智能体强化学习、AI于气候变化的应用。

6/28/2024 6:38:00 PM

机器之心

资讯热榜

Cursor宣布免费向学生开放一年Pro会员，助力AI编程教育大BUG！非学生用户竟能白嫖谷歌顶级AI全家桶白嫖攻略速看保姆级教程：零代码基础也能微调Qwen3，并本地部署英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2，语音转录能力再提升应对网络威胁利器！Cisco与Meta推出Foundation-sec-8B LLM Excel MCP Server上线可通过Claude等客户端直接操作Excel文件 Figma重磅升级：发布五大新功能，Figma Sites支持一键发布网站字节跳动开源深度研究框架DeerFlow

标签云

人工智能 OpenAI AI AIGC ChatGPT AI绘画 DeepSeek 模型机器人数据谷歌大模型 Midjourney 智能用户开源学习微软 GPT Meta 图像 AI创作技术 Gemini 论文马斯克 Stable Diffusion 算法芯片代码蛋白质生成式英伟达腾讯神经网络研究 Anthropic 计算 3D 开发者 Sora AI设计机器学习 AI for Science GPU AI视频苹果场景华为人形机器人百度预测伟达搜索 Claude Transformer 深度学习 xAI 大语言模型字节跳动模态训练具身智能驾驶神器推荐文本 LLaMA Copilot 视觉算力应用安全智能体视频生成干货合集亚马逊大型语言模型 API 科技 AGI