AI在线 AI在线

模型

5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限

只用5%的参数,数学和代码能力竟然超越满血DeepSeek? 北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。 该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。
5/27/2025 3:40:34 PM

两岁的Llama,最初的14位作者已跑了11个!Mistral成最大赢家

Meta 开源 Llama 模型家族帮助该公司制定了 AI 战略,某种程度上也改变了全世界的大模型格局。 然而,令人意想不到的是,短短几年,Llama 的初创者们大多已经转投他处。 在 2023 年发表的那篇具有里程碑意义的论文《 LLaMA: Open and Efficient Foundation Language Models 》中,Llama 被推向世界,当时论文共有 14 位作者。
5/27/2025 3:37:46 PM

低Token高精度!字节复旦推出自适应推理框架CAR

过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。
5/27/2025 3:28:47 PM

扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧

首个用于加速扩散式大语言模型(diffusion-based Large Language Models, 简称 dLLMs)推理过程的免训练方法。 上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。 其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。
5/27/2025 3:28:11 PM

北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。 如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能? 如何建立更全面、更可靠的 AI 评估体系?
5/27/2025 3:21:06 PM

Llama 论文作者“出逃”,14人团队仅剩3人,法国独角兽 Mistral 成最大赢家

他们大多去向了 Mistral,这家总部位于巴黎的 AI 初创公司,正在用“开源速度”反攻 Meta 自己开启的战场。 Llama 曾是 Meta 最具野心的 AI 作品:在 ChatGPT 和 PaLM 占据主流话语权的 2023 年,Meta 用一篇重量级论文和一组开放权重的大语言模型,意外地把开源阵营推上主舞台。 而那时,Meta 的 AI 科研团队 FAIR(Fundamental AI Research)也正处于高光时刻。
5/27/2025 3:16:38 PM

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

近年来,思维链在大模型训练和推理中愈发重要。 近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。 该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。
5/27/2025 9:00:00 AM

红杉中国xbench全球首发,AI智能体真实战力揭榜!

随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重要需求。 有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity ,Scaling with Profession-Aligned Real-world Evaluations》。
5/27/2025 8:50:00 AM

四页绝密文件曝OpenAI野心!ChatGPT占领人类心智,25年致命杀招公开

OpenAI真正的野心终于曝光! 最近,泄露的一份法律文件揭示了OpenAI的雄心:终极目标是「占领用户的AI心智」——ChatGPT就等价于AI,等价于智能体。 原始文件:,几个月前GPT-4o掀起「吉卜力风格」的热潮,或许也是OpenAI精心布局的一环。
5/27/2025 8:40:00 AM

AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:、全球首款Office智能体APP!昆仑万维天工超级智能体APP上线昆仑万维集团推出全球首款基于AI Agent架构的Office智能体手机应用,天工超级智能体APP通过四大智能体协同工作,重新定义移动办公效率,支持跨端协同和私人知识库搭建,未来还将扩展至更多领域。 【AiBase提要:】✨ 天工超级智能体APP是全球首款基于AI Agent架构的Office智能体手机应用,重新定义移动办公效率。
5/26/2025 4:00:50 PM
AI在线

红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准

随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。 为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。 这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。
5/26/2025 2:00:50 PM
AI在线

Claude 4登陆Amazon Bedrock 企业AI的“最后一公里”打通了

近日,知名 AI 公司 Anthropic 正式推出了其最新的 Claude4系列大模型,这一消息迅速引发了科技界的广泛关注。 与以往不同的是,Claude4现在已在亚马逊云科技的 Amazon Bedrock 平台上正式上线,这标志着 Agentic AI(智能代理 AI)迈入了企业级应用的新阶段。 Claude4系列包括两款新模型:Claude Opus4和 Claude Sonnet4。
5/26/2025 2:00:50 PM
AI在线

谷歌重磅发布三大Gemma模型变体,AI医疗、手语翻译与海豚语言解锁新可能!

近日,谷歌在人工智能领域再掀波澜,宣布推出基于Gemma模型的三款全新变体:MedGemma、SignGemma和DolphinGemma。 这些模型分别针对医疗、手语翻译和海豚语言研究领域,展现了AI技术在跨领域应用的巨大潜力。 以下,AIbase为您详细解读这三款模型的亮点与应用前景。
5/26/2025 10:01:00 AM
AI在线

华为中科大联创大模型低比特量化算法,1‰数据实现昇腾无损压缩7倍

大模型,如今堪称AI界的「吞金巨兽」。 从写诗到解题,从对话到编程,它们几乎无所不能,但动辄千亿甚至万亿参数的规模,让部署成本高得离谱。 以FP16精度部署的DeepSeek-R1 671B为例,推理时大概需要1342GB的显存,如果是32GB 5090显卡,需要整整42张!
5/26/2025 9:41:26 AM

312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7

自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL)算法把电脑智能体的能力推向新高,引发全球范围广泛关注。 业界普遍认为,需要海量的轨迹数据或复杂的强化学习才能实现电脑智能体的水平突破——这可能意味着大量的人工轨迹标注,以及大规模虚拟机环境的构建,以支撑智能体的学习与优化。 然而,来自上海交通大学和 SII 的最新研究却给出了一个非共识答案:仅需 312 条人类标注轨迹,使用 Claude 3.7 Sonnet 合成更丰富的动作决策,就能激发模型 241% 的性能,甚至超越 Claude 3.7 Sonnet extended thinking 模式,成为 Windows 系统上开源电脑智能体的新一代 SOTA。
5/26/2025 9:21:00 AM

只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max

近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。 然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理视觉信息时也是如此 。 常见的 MLLM 结构。
5/26/2025 9:16:00 AM
机器之心

AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

如何用AI赚钱,可能是这个时代最常见的问题。 有些人选择用大模型写小说、写报告、写文案等等,但这些场景只是让模型在执行一些「短期且孤立」的任务。 如果能找到合适的应用场景,比如「用自动驾驶跑网约车」,并且模型还能够在长时间内保持连贯的输出,再那岂不是就能躺赚了?
5/26/2025 9:14:00 AM

15亿美元AI独角兽崩塌,全是印度程序员冒充!微软亚马逊惨遭忽悠

印度老哥是真的有点猛啊! 今天要说的这位,是AI编程公司Builder.ai的创始人兼前CEO——Sachin Dev Duggal。 他不仅造了个「全是人工,没有智能」的假AI公司从软银、微软等巨头手里骗到了数亿美元融资,估值干到15亿而且还敢对投资人虚报300%的营收是的,这家公司的后台里并没有AI,有的只是一群印度老哥假装AI写代码。
5/26/2025 9:12:00 AM