AI在线 AI在线

模型

DeepSeek-R1秘籍轻松迁移,最低只需原始数据0.3%

DeepSeek-R1背后关键——多头潜在注意力机制(MLA),现在也能轻松移植到其他模型了! 而且只需原始数据的0.3%~0.6%。 这项研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏(Moss大模型项目负责人)也在作者名单之列。
2/25/2025 10:03:20 AM
量子位

新型语言模型 Huginn:突破推理界限 无需语言即可“思考”

近日,来自图宾根埃利斯研究所、马里兰大学和劳伦斯利弗莫尔国家实验室的研究团队,开发出名为 Huginn 的新型语言模型,该模型采用递归架构,显著提升了推理能力。 与传统模型不同,Huginn 无需专门的“推理链”训练,便可在神经网络的“潜在空间”内自主推理,再输出结果。 研究团队开发出名为 Huginn 的新型语言模型,该模型采用递归架构,显著提升了推理能力。
2/25/2025 9:39:00 AM
AI在线

官方承认系统「作弊」,世界首个「AI CUDA工程师」翻车?o3-mini 11秒发现bug

近日,获英伟达支持、已获数亿美元风投资金的Sakana AI爆出戏剧性反转。 此前,该公司宣称开发出「AI CUDA工程师」,能将特定模型训练速度提升最高达100倍,引发行业关注。 然而,网友却发现,这个系统根本不管用。
2/25/2025 9:15:35 AM
新智元

刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1

憋了大半年,Anthropic终于放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登场! 这是Claude系列中,迄今为止最智能的模型,几乎能够及时响应,并进行可扩展的、逐步的思考。 简言之,一个模型,两种思考方式。
2/25/2025 9:13:16 AM
新智元

全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手

就在昨晚,Anthropic 要发新模型的消息开始在 AI 社区广泛发酵,不过并不是期待中的 Claude 4.0,而是 3.7 Sonnet 版本。 图源:,Anthropic 的新旗舰模型如约而至,正式发布了其迄今为止最智能的模型以及市面上首款混合推理模型 —— Claude 3.7 Sonnet。 Claude 3.7 Sonnet 可以产生近乎即时的响应或者向用户展示扩展的、逐步的思考。
2/25/2025 9:02:26 AM
机器之心

Claude 3.7 Sonnet正式登陆Perplexity Pro:代理工作流与代码生成显著提升

人工智能搜索平台Perplexity宣布,其Pro版本现已整合Anthropic公司最新发布的Claude3.7Sonnet模型。 根据Perplexity官方在X平台上的最新消息,该公司已对这一模型进行了数周的内部测试,结果显示其在代理工作流程和代码生成能力上取得了显著进步。 Perplexity发布推文表示:“Claude3.7Sonnet现已与Perplexity Pro一起提供。
2/25/2025 8:51:00 AM
AI在线

AI编程工具Cursor已集成Claude 3.7 Sonnet推理模型

刚刚,Cursor AI宣布已集成Claude 3.7 Sonnet,并更新了用户界面,使其更加简洁易用。 此外,Cursor还引入了跨聊天对话功能,能够自动总结聊天摘要并继承到新开的聊天窗口中,进一步提升了用户体验。 早些时候,Anthropic公司正式发布其最新推理模型——Claude3.7Sonnet。
2/25/2025 8:26:00 AM
AI在线

Anthropic推出混合推理模型Claude 3.7 Sonnet:能力超DeepSeek

今日,人工智能公司Anthropic宣布正式推出其最新的“混合推理模型”——Claude3.7Sonnet。 这款模型被Anthropic誉为有史以来“最智能”的AI模型,旨在解决更复杂的问题,并在数学和编码等领域展现出超越以往的性能。 据Anthropic公司介绍,Claude3.7Sonnet作为一款“混合型”模型,兼具“推理模式”(能够停下来思考复杂答案)与传统模式(实时生成答案)的能力。
2/25/2025 8:16:00 AM
AI在线

受DeepSeek影响,印度启动重磅AI项目:计划投入2700万美元

在全球 AI 技术竞争愈演愈烈的背景下,印度政府启动了一项名为 BharatGen 的重大人工智能项目。 这一项目获得了科技部的支持,计划投入约235亿卢比(约合2700万美元),旨在构建国家自己的基础 AI 模型,以保障印度的科技自主性。 图源备注:图片由AI生成,图片授权服务商MidjourneyBharatGen 项目的推进并非偶然。
2/24/2025 5:52:00 PM
AI在线

双擎升级!商汤大装置DeepSeek企业版上线+免费版扩容

今年2月,商汤大装置万象平台正式上线了DeepSeek-R1、DeepSeek-V3等模型,并为免费版提供3个月内千万Token额度,受到客户的热烈响应。 为了更好的服务用户,经过系列优化,,现正式推出企业版,同时完成免费版国产化适配与算力扩容,形成专业强支撑 普惠广覆盖的双擎驱动! 登录官网,即刻体验!
2/24/2025 4:48:00 PM
新闻助手

如何让大模型感知知识图谱知识?蚂蚁联合实验室:利用多词元并行预测给它“上课”

如何让大模型感知知识图谱知识? 蚂蚁联合实验室:利用多词元并行预测给它“上课”。 大语言模型的飞速发展打破了许多自然语言处理任务间的壁垒。
2/24/2025 2:30:00 PM
量子位

Zero-shot重建物理高斯资产,清华&光轮视觉大模型让机器人理解物理属性|ICRA 2025

理解物体的物理属性,对机器人执行操作十分重要,但是应该如何实现呢? 光轮智能与清华AIR、同济大学等机构联合提出了一种基于3D高斯溅射的方法——PUGS(Zero-shot Physical Understandingwith Gaussian Splatting)无需训练、零样本,它就能够从多视角图像中重建物体,并对各种指定的物理属性进行密集重建。 该论文已被ICRA 2025接收。
2/24/2025 2:22:00 PM
量子位

单提示生成「主体一致」图像,且无需训练!已斩获ICLR 2025 Spotlight

现在的AI画图工具,比如文图生成模型,已经能根据文字描述创作出高质量的图像了。 但是,当我们需要用模型来画故事,并且希望故事中的人物在不同场景下都保持一致时,这些模型就有点犯难了。 目前,为了解决人物不一致的问题,通常需要用海量数据进行额外训练,或者对模型本身进行比较复杂的修改。
2/24/2025 1:40:00 PM
新智元

不用GAN不用扩散,无需训练解锁AI生图新境界!判别模型成神秘第三极

判别模型与生成模型长期以来彼此独立,前者专注于分类和识别,后者用于数据生成。 最近一项名为「直接上升合成」(Direct Ascent Synthesis,DAS)的独立研究,颠覆了这一传统观念,揭示出判别模型中隐藏着令人惊叹的生成能力。 论文链接:。
2/24/2025 1:35:00 PM
新智元

8分钟,Grok 3破解美国本科生最难数赛题!马斯克要用100万GPU反超「星际之门」?

上周,马斯克发布了其号称「地表最强」的Grok 3模型。 一经发布便引爆全网,经过网友实测,发现其性能果然强悍! 物理学家Luis Batalha在x上表示,2025年的普特南竞赛上,即使是前500名的顶尖选手,也无人能完整攻克下面这道难题。
2/24/2025 1:00:00 PM
新智元

南大钱超团队攻克百亿晶体管难题,斩获EDA顶会2025最佳论文!AI学院本硕博生联手

据南京大学人工智能学院网站报道,南大LAMDA组钱超教授团队在DATE 2025发表的芯片设计优化论文「Timing-Driven Global Placement by Efficient Critical Path Extraction」获会议最佳论文奖。 电子设计自动化(Electronic Design Automation,EDA)是芯片设计的基石产业,被誉为「芯片之母」。 欧洲设计自动化与测试会议(Design, Automation and Test in Europe Conference,DATE)是EDA领域的顶级国际学术会议。
2/24/2025 12:33:28 PM
新智元

魔发奇缘,3D发型生成新突破!TANGLED:可用任意样式和视点的图像生成 3D 发束

在数字时代,发型不仅是时尚的标志,更是个人文化身份的彰显。 但传统3D发型生成技术往往难以捕捉复杂发型的细腻之美。 为此,上海科技大学和华中科技大学推出了ANGLED技术,能从任意风格、视角的图像中,轻松生成逼真3D发型。
2/24/2025 10:40:00 AM
AIGC Studio

DeepSeek 开源周首日:开源 FlashMLA,AI 推理速度再进化!

DeepSeek 开源周day1 推出 FlashMLA! 专为Hopper 架构 GPU打造的 超高效 MLA (Multi-Layer Attention) 解码内核,现在已经正式开源啦! 👏什么是 FlashMLA?
2/24/2025 10:07:04 AM
AI寒武纪