模型

采样越多越聪明？隐式扩展颠覆认知，采样搜索如何挑出完美解

先让模型生成多个候选答案，再通过自我验证挑出「真金」。基于采样的搜索在许多推理任务中表现优异，可关于它的扩展趋势，还有许多未解之谜。随着采样数量的增加，模型的推理性能能否继续提升？

4/22/2025 8:50:00 AM 新智元

被LangChain4j坑惨了！

最近在深度体验和使用 Spring AI 和 LangChain4j，从开始的满怀期待五五开，但最后极具痛苦的使用 LangChain4j，让我真正体验到了正规军和草台班子的区别。 Spring AI VS LangChain4jSpring AI：使用简单、写法优雅、但功能提供的较少、成熟度稍高；LangChain4j：作为移植大模型著名框架 LangChain 功能稍多、灵活度高、使用复杂、满是 BUG。还有根本找不到关键内容的官方文档，该有的重要内容是一点都不介绍啊，使用和学习成本很高。

4/22/2025 3:00:00 AM 磊哥

o3被曝「无视」前成果？华人博士生实名指控，谢赛宁等大牛激烈争辩

在视觉感知方面，o3和o4-mini在思维链中进行图像推理，代表了一个重要突破。华盛顿大学计算机科学博士生施惟佳站出来表示，o3和o4-mini可能用到了她之前的研究Visual Sketchpad 。论文链接：，曾提出通过可视化辅助增强模型推理。

4/21/2025 4:32:29 PM 新智元

o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因

OpenAI新模型发布后，大家体感都幻觉更多了。甚至有人测试后发出预警：使用它辅助编程会很危险。图片具体来说，它经常捏造从未运行过的代码返回结果，在被质问时找理由狡辩，甚至还会说是用户的错。

4/21/2025 4:25:58 PM

清华张亚勤：10年后，机器人将可能比人都多

“10年后，机器人将可能比人都多，会陆续进入工厂、社会，最终形态是进入家庭。未来每个人、每个家庭都有机器人。 ”这样的预言，来自清华大学智能产业研究院（AIR）院长张亚勤。

4/21/2025 9:30:00 AM 量子位

OpenAI爆出硬伤，强化学习是祸首！o3越强越「疯」，幻觉率狂飙

满血o3更强了，却也更爱「胡言乱语」了。 OpenAI技术报告称，o3和o4-mini「幻觉率」远高于此前的推理模型，甚至超过了传统模型GPT-4o。根据PersonQA基准测试，o3在33%的问题回答中产生了幻觉，几乎是o1（16%）的2倍。

4/21/2025 9:27:00 AM 新智元

文科已死，计算机科学将亡？ACM警告：不想被AI团灭，关键在融合新生

GenAI日新月异，引发了大众选择职业和大学专业的焦虑。但最近，美国的国际计算机协会（Association for Computing Machinery，ACM），发布了一篇博客文章，表示：文科和计算机科学，这两个专业最后可能合流，融合在一起才能存活。在哲学中，「存在危机」指的是质疑自己人生目的、意义和在世界中位置的状态。

4/21/2025 9:14:00 AM 新智元

Transformer+Mamba黄金组合！长文推理性能飙升3倍，性能还更强

过去几年，Transformer虽稳坐AI架构「铁王座」，但其二次方复杂度带来的算力消耗和长序列处理瓶颈，限制了大模型在推理阶段处理长文本。 Mamba凭借「线性复杂度」异军突起，非常适合长序列任务，有望成为Transformer架构的替代品，但在处理全局关系上偏弱。 Mamba Transformer混合架构可以将二者的优势互补，实现「效率」和「性能」的双丰收。

4/21/2025 9:07:00 AM 新智元

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）

本文旨在提供一个全面且详细的DeepSeek本地部署指南，帮助大家在自己的设备上成功运行DeepSeek模型。无论你是AI领域的初学者还是经验丰富的开发者，都能通过本文的指导，轻松完成DeepSeek的本地部署。一、本地部署的适用场景DeepSeek本地部署适合以下场景：高性能硬件配置：如果你的电脑配置较高，特别是拥有独立显卡和足够的存储空间，那么本地部署将能充分利用这些硬件资源。

4/21/2025 8:47:18 AM 冰河

DeepSeek-R1「内心世界」首次曝光！AI显微镜破解R1大脑，发现神秘推理机制

推理模型的内心世界是怎么想的？推理模型与普通LLM之间有没有本质的区别？一直以来，AI内部的运作机理就像个「黑箱子」。

4/21/2025 8:42:00 AM 新智元

LeCun被痛批：你把Meta搞砸了！烧掉千亿算力，自曝折腾20年彻底失败

凭借着GPT/o系列、Gemini 2.5、Claude的强大能力，OpenAI、谷歌、Anthropic纷纷在AI大战中各领风骚。唯独Meta，没有走在前沿。 Llama 4自发布以来种种拉跨的表现，让Meta在某种程度上沦为了业内的「笑柄」。

4/21/2025 8:40:00 AM 新智元

仅需0.4GB，参数只有0和±1！微软开源首个原生1 bit模型，CPU轻松跑

大模型轻量化终于又有好玩的了。就在最近，微软亚研院开源了第一款参数量达到20亿，并且还是原生1bit精度的LLM——BitNet b1.58 2B4T。论文地址：，其实都在模型名字里了：1.

4/21/2025 8:30:00 AM 新智元

马斯克炫酷变身毒液！实测通义Wan2.1首尾帧视频模型，还能“拼接”经典梗图

在GitHub狂揽1w 星标的通义万相Wan2.1，又双叒上新了！最新打开方式是酱婶儿的：给出开始（首帧）和结束（尾帧）两张图片，Wan2.1便能分分钟生成一段丝滑的5s、720p视频。根据前后视角的不同，还能自动调整镜头角度，缓慢变成高空俯拍，并同时保证人物光影正确：原来这是阿里通义万相Wan2.1最新开源的首尾帧视频模型，基于Wan2.1文生视频14B大模型，为创作者们提供更高效、更灵活的视频制作方式。

4/21/2025 8:27:00 AM 量子位

纯自回归图像生成模型开源来了，复旦联手字节seed共同捍卫自回归

基于Transformer的自回归架构在语言建模上取得了显著成功，但在图像生成领域，扩散模型凭借强大的生成质量和可控性占据了主导地位。虽然一些早期工作如Parti、LlamaGen，尝试用更强的视觉tokenizer和Transformer架构来提升自回归生成的效果，但他们论文中的结果表明，只有更多的参数量才能让自回归模型勉强和扩散模型“掰掰手腕”。这也让越来越多的研究者质疑自回归视觉生成是否是一条可行、值得探索的路径。

4/21/2025 8:20:00 AM 量子位

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1、Kimi K1.5，显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能。不过，基于 RL 的后训练进展主要受限于自回归的大语言模型（LLM），它们通过从左到右的序列推理来运行。与此同时，离散扩散大语言模型（dLLM）成为有潜力的语言建模的非自回归替代。

4/20/2025 2:34:00 PM 机器之心

SS 2025｜ConRFT：真实环境下基于强化学习的VLA模型微调方法

本文第一作者为陈宇辉，中科院自动化所直博三年级；通讯作者为李浩然，中科院自动化所副研；研究方向为强化学习、机器人学习、具身智能。视觉-语言-动作模型在真实世界的机器人操作任务中显示出巨大的潜力，但是其性能依赖于大量的高质量人类演示数据。由于人类演示十分稀缺且展现出行为的不一致性，通过监督学习的方式对 VLA 模型在下游任务上进行微调难以实现较高的性能，尤其是面向要求精细控制的任务。

4/18/2025 12:25:34 PM 机器之心

谷歌大模型“性价比之王”来了！混合推理模型，思考深度可自由控制，竞技场排名仅次于自家Pro

紧跟o4-mini，谷歌上新了Gemini 2.5 Flash preview版本。作为更注重效率的Flash，在大模型竞技场上排名并列第二，第一是自家的Gemini 2.5 Pro。这样的表现，让Gemini 2.5 Flash的性价比直接拉满。

4/18/2025 10:43:23 AM

最新万字长文！强化学习之父联合谷歌RL副总裁：未来不是靠强化学习算法而是「经验流」

就像Sam Altman 之前在博客文章中写的那样：回顾人工智能的发展，深度学习确实奏效了！现在强化学习正如火如荼，OpenAI o系列，DeepSeek R0都显示出了强化学习的巨大威力，人类生成的数据推动了人工智能的惊人进步，但接下来会发生什么？谷歌强化学习副总裁 David Silver与图灵奖获得者，强化学习之父Richard Sutton最新论文《Welcome to the Era of Experience》犹如《TheBitterLesson（苦涩的教训）》的续章给我们当头一棒：人类数据正在见顶，经验是下一个超级数据源，真正能推动AI跃升的数据，必须随模型变强而自动增长。

4/18/2025 10:01:41 AM AI寒武纪

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 GGUF 是什么？一文看懂大模型里最火的模型格式最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词）

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 英伟达马斯克 Anthropic 图像 AI创作训练 LLM 论文代码 AI for Science 腾讯苹果算法 Agent Claude 芯片 Stable Diffusion 具身智能 xAI 蛋白质开发者人形机器人生成式神经网络机器学习 AI视频 3D 大语言模型 RAG 字节跳动 Sora 百度研究 GPU 生成华为工具 AGI 计算 AI设计生成式AI 大型语言模型搜索视频生成 AI模型亚马逊特斯拉 DeepMind 场景深度学习 Copilot Transformer 架构 MCP 编程视觉