模型

谷歌再破界限：Gemini 2.5 Pro实现6小时视频理解，AI视觉能力迈入新纪元

谷歌Gemini2.5Pro视频理解能力再升级，这款旗舰AI模型不仅支持长达6小时的视频分析，还拥有高达200万Token的超大上下文窗口，同时首次实现通过API直接解析YouTube链接。官方数据显示，该模型在VideoMME基准测试中达到84.7%的准确率，与行业顶尖水平的85.2%仅有一线之差，彰显了其强劲实力。这项突破性技术现已通过Google AI Studio向开发者开放体验。

5/12/2025 10:01:12 AM AI在线

ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot，让表情包、动漫人物、玩具等“开口说话”

5/12/2025 9:28:00 AM AIGC Studio

17000字Claude 系统提示启示：Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪 2025年05月11日 19:29

5/12/2025 9:13:00 AM

AI逼疯七巨头，马斯克们深陷中年危机！

中年危机来势汹汹，就连昔日风光无限的科技巨头们也逃不过。前一秒，你还是那个颠覆传统行业的年轻人；下一秒，就可能像马斯克说的那样，「盯着深渊，嚼着玻璃，眼睁睁地看着颠覆浪潮逼近家门口」。号称美股「科技七巨头」的几家大型公司，似乎都已陷入了这种境地。

5/12/2025 9:06:00 AM

九年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

近日，在红杉资本主办的 AI Ascent 上，OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲，其上传到 YouTube 的版本更是采用了一个更吸引人的标题：「9 年实现 AGI？ OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」在这场演讲中，Dan Roberts 介绍了预训练和强化学习的 Scaling Law，并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用，而随着强化学习继续扩展，我们最终将造出有能力发现新科学的模型。

5/12/2025 9:02:00 AM

首个智能文档处理基准发布：Gemini领跑但短板待补，多模态AI面临现实挑战

5月11日，智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档，全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现，为行业发展提供了可量化参考。测试结果显示，Gemini2.5Flash在综合实力上力压群雄，但却在OCR和分类任务中出现意外"滑铁卢"，表现甚至不如上一代的Gemini2.0Flash，分别下降了1.84%和0.05%。

5/12/2025 9:01:02 AM AI在线

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

字节Seed首次开源代码模型！ Seed-Coder，8B规模，超越Qwen3，拿下多个SOTA。它证明“只需极少人工参与，LLM就能自行管理代码训练数据”。

5/12/2025 9:00:00 AM

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

OpenAI GPT-4o发布强大图片生成能力后，业界对大模型生图能力的探索向全模态方向倾斜，训练全模态模型成研发重点。开源的MLLMs和扩散模型已经过大规模预训练，其从零开始训练统一任务，不如取长补短，将MLLMs的语言建模能力，与扩散模型的像素级图像建模能力，进行有机的结合。基于这个思路，ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型Nexus-Gen，在图像质量和编辑能力上达GPT-4o同等水平，并将成果全方位开源，望引发开发者讨论，促进All-to-All模型领域发展。

5/12/2025 8:50:00 AM

一个「always」站在大模型技术C位的传奇男子

怎么老是你？？？

5/12/2025 8:40:00 AM

哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程！AI也会犹豫、反悔？

近日，来自哈佛大学、布朗大学以及图宾根大学研究者们，共同发表了一项关于Transformer模型与人类认知处理相关性的研究论文：——《Linking forward-pass dynamics in Transformers and real-time human processing》意译过来就是：Transformer模型的“思考过程”与人类大脑实时认知的奇妙相似图片换句话说，它想搞清楚一个“老问题”：AI模型的内部处理过程，和人类大脑的实时认知，有多少相似？过去我们研究AI和人类的相似性，最常见的做法是什么？ “看结果”：让AI做题，看它答对多少，概率分布和人的选择对不对得上。

5/12/2025 2:10:00 AM 文摘菌

UGMathBench动态基准测试数据集发布可评估语言模型数学推理能力

近日，魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集，旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世，填补了当前在本科数学领域评估语言模型推理能力的空白，并为研究者提供了更为丰富和具有挑战性的测试平台。随着人工智能技术的飞速发展，自然语言模型在自动翻译、智能客服、医疗、金融等多个领域展现出巨大潜力。

5/10/2025 11:00:51 AM AI在线

商汤科技迈向多模态大模型的新纪元

在过去的两年里，人工智能领域的关注点逐渐转向了大模型的技术发展，而商汤科技作为一家成立不到十年的公司，凭借其在计算机视觉领域的技术积累，正迅速转型，迎接这一浪潮。尽管在2023年之前，商汤主要聚焦于视觉模型，但随着 DeepSeek R1的发布，市场的重心开始向自然语言处理和大规模参数模型倾斜，商汤的策略也随之调整。商汤于4月10日推出的全新6000亿参数多模态大模型 “日日新 Sense Nova V6”，展现了强大的综合能力，与国际领先的 GPT-4.5和 Gemini2.0Pro 不相上下。

5/9/2025 4:00:51 PM AI在线

英伟达开源新一代OCR代码推理 AI 模型，超越 OpenAIo3-Mini表现

英伟达在技术界引起广泛关注，正式发布了其最新的 Open Code Reasoning（OCR）模型套装。这一模型的推出，不仅展示了英伟达在人工智能领域的创新能力，也为开发者提供了强有力的工具，助力他们在代码推理和生成任务中取得更好的成绩。 ** 模型参数与架构:多样化选择 **英伟达的 OCR 模型套装共包含三种不同参数规模，分别为32B、14B 和7B。

5/9/2025 4:00:51 PM AI在线

国内大模型人才大战打响！大厂各出奇招，薪资不设上限、CTO亲自参与指导、无需实习经验

眼花缭乱了。为争夺AI人才，大厂们齐齐放大招！各种天才、顶尖人才计划简直看不过来。

5/9/2025 3:22:40 PM

OpenAI 发布关于 AI 模型使用的官方建议，助力用户更高效工作

近日，OpenAI 在其帮助中心发布了针对企业用户的全新指南，详细说明了其多种人工智能模型的最佳使用时机。这一举措旨在帮助用户根据不同的任务需求，选择最合适的 AI 模型，从而提升工作效率和成果质量。 OpenAI 的最新订阅计划 ——ChatGPT Enterprise，提供了企业级的安全与隐私保护，同时允许用户无限制地高速访问其先进的 GPT-4o 和 OpenAI o3推理模型。

5/9/2025 2:00:54 PM AI在线

Meta FAIR最新五大AI感知突破：从3D对象定位到协作推理，开源助力产业升级

Meta人工智能研究团队（FAIR）近日公开发布五项前沿研究成果，标志着AI感知领域的重大突破。这些开源项目从视觉编码器到3D空间理解，再到协作式推理框架，共同构建了通向高级机器智能(AMI)的关键路径，为未来AI如何理解和感知世界带来全新可能。 "机器之眼"再升级:Meta感知编码器引领视觉理解新标准Meta感知编码器（Perception Encoder）作为大规模视觉编码器，在图像和视频处理领域显示出卓越能力，成为AI系统的"眼睛"。

5/9/2025 12:01:52 PM AI在线

欧洲黑马Mistral Medium 3来了！跑分对标最强Claude，实测大翻车

就在刚刚， Mistral AI发布了他们最新多模态模型Mistral Medium 3。 Mistral兴奋地宣称Mistral Medium 3的性能接近甚至达到了Claude Sonnet 3.7的水平，但成本却比DeepSeek V3还低。在Mistral官方的博客中，列出了Mistral Medium 3的核心亮点：1.

5/9/2025 9:02:00 AM

OpenAI神秘项目曝光：cderGPT，用AI加速药物评估

OpenAI又一个神秘项目曝光了——名字叫做cderGPT，专门用来给药物评估这事提一提速度。据Wired发布的消息来看，OpenAI的高层为了这个项目，已经与美国食品药品监督管理局（FDA）和马斯克的效率部门进行了多次讨论。至于为什么要做这么个事，FDA局长Marty Makary在X上发表了他的看法：FDA现在不得不直面一些前所未有的重大问题：为什么一款新药上市要耗费十年以上的时间？

5/9/2025 8:35:00 AM

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 GGUF 是什么？一文看懂大模型里最火的模型格式最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品 Sora、可灵、即梦哪家强？AI视频软件深度测评！后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词）大模型指标：RPM、TPM…这些“神秘代码”到底是什么？

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达智能体 Gemini 技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

模型

谷歌再破界限：Gemini 2.5 Pro实现6小时视频理解，AI视觉能力迈入新纪元

ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot，让表情包、动漫人物、玩具等“开口说话”

17000字Claude 系统提示启示：Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪 2025年05月11日 19:29

AI逼疯七巨头，马斯克们深陷中年危机！

九年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

首个智能文档处理基准发布：Gemini领跑但短板待补，多模态AI面临现实挑战

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

一个「always」站在大模型技术C位的传奇男子

哈佛新论文揭示 Transformer 模型与人脑“同步纠结”全过程！AI也会犹豫、反悔？

UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力

商汤科技迈向多模态大模型的新纪元

英伟达开源新一代OCR代码推理 AI 模型，超越 OpenAIo3-Mini表现

国内大模型人才大战打响！大厂各出奇招，薪资不设上限、CTO亲自参与指导、无需实习经验

OpenAI 发布关于 AI 模型使用的官方建议，助力用户更高效工作

Meta FAIR最新五大AI感知突破：从3D对象定位到协作推理，开源助力产业升级

欧洲黑马Mistral Medium 3来了！跑分对标最强Claude，实测大翻车

OpenAI神秘项目曝光：cderGPT，用AI加速药物评估

UGMathBench动态基准测试数据集发布可评估语言模型数学推理能力