AI在线 AI在线

理论

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

「推理」已成为语言模型的下一个主要前沿领域,近期学术界和工业界都取得了突飞猛进的进展。 在探索的过程中,一个核心的议题是:对于模型推理性能的提升来说,什么有效? 什么无效?
4/13/2025 3:10:00 PM
机器之心

Science子刊 | 基于公平贝叶斯扰动,首个面向医学图像生成公平性的方法FairDiffusion来了

编辑 | ScienceAI随着人工智能在医学影像领域的广泛应用,文本到图像扩散模型(如 Stable Diffusion)正逐步渗透到医学数据合成、医学教育和数据共享中。 然而,尽管生成质量整体较高,模型在不同人口统计属性(性别、种族、族裔)上却存在明显差异。 例如,实验表明,Stable Diffusion 在生成女性、白人及非西班牙裔样本时图像细节和临床特征更为突出,而在男性、亚洲人及西班牙裔样本上则表现欠佳。
4/12/2025 5:16:00 PM
ScienceAI

苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型

让大模型进入多模态模式,从而能够有效感知世界,是最近 AI 领域里人们一直的探索目标。 目前我们见到的很多多模态大模型应用是「组合式」的:其中集成了数个单独预训练的组件,例如将视觉编码器连接到 LLM 上并继续进行多模态训练;而在谷歌 Gemin 2.0 推出之后,原生多模态模型(NMM)被认为是正确的方向。 但从零开始训练的多模态大模型真的是更好的方法吗?
4/12/2025 3:52:00 PM
机器之心

微软突然封锁Cursor,全面禁用C、C++、C#扩展,网友:理解微软,Cursor白嫖VSCode

编辑 | 云昭就在两天前,有用户在知名AI编程工具Cursor的论坛上提出了一个问题:怎么回事? VSCode的扩展以后还能在Cursor上使用吗? 这个问题震惊了Cursor用户们,他们发现微软的C/C 语言服务扩展突然停止支持Cursor,这是反常识的:因为Cursor使用了跟VSCode同源的基础代码。
4/12/2025 2:01:42 PM
云昭

击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!

刚刚,字节旗下的豆包团队发布了他们最新的推理模型Seed-Thinking-v1.5! 亮点很突出:200B参数击败DeepSeek R1(671B),不到后者参数量的三分之一! 与其他最新的超大杯推理模型相比,Seed-Thinking-v1.5 是一个相对小型的专家混合(MoE)模型——激活参数为 20B,总参数规模为 200B。
4/11/2025 2:54:44 PM

召回率98.5%,开源混合学习系统精准预测生物大分子中金属结合位点

编辑丨&金属离子是许多蛋白质中用于蛋白质功能推断和工程化的重要成分,其复杂性与结构催化等作用有关。 现如今的技术在应对过渡金属离子的建模,特别是在瞬时、可逆和浓度依赖性调节位点等难题时,显得有些乏力。 汕头大学医学院、湖南大学与美国弗吉尼亚大学(University of Virginia)带来了一种混合机器学习系统,名为 PinMyMetal(PMM)。
4/11/2025 2:13:00 PM
ScienceAI

OpenAI史上最硬核技术播客!系统揭秘GPT4.5诞生,已进入数据受限时代!小哥亲述大模型修bug血泪史;还有一个重磅开源消息

整理 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)刚刚,奥特曼亲自预热的那期播客,完整版视频终于上线啦! ! !
4/11/2025 1:41:19 PM
伊风

宇树机器人上演好莱坞《铁甲钢拳》!网友激动表示:比CG还CG

好莱坞科幻大片《铁甲钢拳》就这样被宇树机器人实现了? 官方划重点:全程完全实拍,无任何加速。 和一名成年男子对打,出拳那叫一个稳准狠:被一脚踢倒后,一个手撑地就立马自己起来了:除了和人类对战,两个机器人也能打得热火朝天:与此同时,宇树科技还剧透最近一个月左右,将开启机器人格斗直播。
4/11/2025 12:55:52 PM
量子位

字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强?

字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了? 而且参数规模更小。 同样是MoE架构,字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。
4/11/2025 12:10:33 PM
量子位

如何查明你的AI供应商是否存在安全风险

在采用AI的过程中,最令人担忧的问题之一是数据泄露。 想象一下这样的场景:一名员工登录到他们常用的AI聊天机器人中,粘贴了敏感的公司机密数据,并要求对其进行总结。 就这样,机密信息被输入到了不受你控制的第三方模型中。
4/11/2025 11:50:56 AM
Adam Burt

200B参数击败满血DeepSeek-R1,字节豆包推理模型Seed-Thinking-v1.5要来了

字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。 从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。 其表现非常惊艳,在各个领域的基准上都超过了拥有 671B 总参数的 DeepSeek-R1。
4/11/2025 11:21:00 AM
机器之心

ChatGPT解锁完整记忆,奥特曼彻夜难眠!所有聊天记录黑历史AI全知道

昨晚,奥特曼一则预告帖,浏览破200多万,彻底点燃了全网大猜想。 而让他兴奋到睡不着的,竟是ChatGPT增强了记忆能力! 图片图片从今天起,ChatGPT记忆功能可以参考过去所有聊天记录,提供更加个性化回复。
4/11/2025 10:32:39 AM

AI智能体如何重塑现代工作流程?

长期以来,工作流程一直是组织效率的支柱。 从最简单的行政任务到最复杂的项目管理流程,工作流程都能帮助企业简化操作、减少错误并提高生产力。 然而,随着AI智能体技术的迅猛发展,工作流程的设计、执行与优化正面临彻底重构的契机。
4/11/2025 10:10:16 AM

预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化

当前(多模态)大模型正深陷「数据饥渴」困境:其性能高度依赖预训练阶段大量高质量(图文对齐)数据的支撑。 然而,现实世界中这类高价值数据资源正在迅速耗尽,传统依赖真实数据驱动模型能力增长的路径已难以为继。 在NeurIPS 2024会议上,OpenAI联合创始人Ilya Sutskever明确指出:「Pre-training as we know it will end」, 这一判断是对传统预范式极限的清晰警示。
4/11/2025 9:35:34 AM
新智元

Grok-3四档定价揭秘:低至0.3美元/百万token,硬刚谷歌Meta

GenAI竞争,越来越激烈了。 据Similar  Web统计,在日活跃用户方面,Grok与Gemini展开了激烈竞争。 两者都已经超过50万日活跃用户,差距不足5万。
4/11/2025 9:29:15 AM
新智元

流体力学专用版DeepSeek,单GPU可跑,成本节约高达100倍

又一专业领域成功引入AI工程师! 而且还是基于DeepSeek、Qwen等国产大模型打造,国内研究人员都能用的那种。 不卖关子了,这就是由英国埃克塞特大学初旭副教授团队与北航王文康副教授团队联合打造的OpenFOAMGPT,将AI工程师成功引入计算流体力学(CFD)领域。
4/11/2025 9:22:00 AM
OpenFOAMGPT团队

7B小模型写好学术论文,新框架告别AI引用幻觉,实测100%学生认可引用质量

学术写作通常需要花费大量精力查询文献引用,而以ChatGPT、GPT-4等为代表的通用大语言模型(LLM)虽然能够生成流畅文本,但经常出现“引用幻觉”(Citation Hallucination),即模型凭空捏造文献引用。 这种现象严重影响了学术论文的可信度与专业性。 现在,加拿大滑铁卢大学与卡内基梅隆大学的华人研究团队,提出了一种名为 ScholarCopilot 的智能学术写作大模型框架,专门针对学术场景,致力于精准地生成带有准确引用的学术文本。
4/11/2025 9:12:21 AM
量子位

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

刚刚,Kimi团队上新了! 开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。 按照Kimi官方的说法,其关键亮点如下:都是基于MoE架构,总参数为16B,但推理时仅激活2.8B;具备强大的多模态推理能力(媲美参数大10倍的模型)和Agent能力;支持128K上下文窗口;采用相对较为宽松的MIT许可证。
4/11/2025 9:10:00 AM
量子位