AI在线 AI在线

LLM

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/28/2025 6:10:00 PM
机器之心

AI驱动的模拟科学家,涉及生理学、生物物理学、物理化学和量子力学多个领域,登Nature子刊

编辑 | 萝卜皮大型语言模型(LLM)是一种人工智能系统,以自然语言的形式封装大量知识。 这些系统擅长许多复杂任务,包括创意写作、讲故事、翻译、问答、总结和计算机代码生成。 尽管 LLM 已在自然科学领域得到初步应用,但其推动科学发现的潜力仍未得到充分开发。
2/26/2025 3:53:00 PM
ScienceAI

大语言模型:表面的推理能力背后是出色的规划技巧

译者 | 刘汪洋审校 | 重楼大语言模型(LLMs)在技术发展上取得了显著突破。 OpenAI 的 o3、Google 的 Gemini 2.0和 DeepSeek 的R1展现出了卓越的能力:它们能处理复杂问题、生成自然的对话内容,甚至精确编写代码。 业界常把这些先进的LLMs 称为"推理模型",因为它们在分析和解决复杂问题时表现非凡。
2/25/2025 9:49:12 AM
刘汪洋

DeepSeek 入门指导手册——从入门到精通

DeepSeek 是由杭州深度求索人工智能基础技术研究有限公司精心打造的一款大型语言模型(LLM)。 该模型集自然语言处理(NLP)、计算机视觉(CV)、强化学习(RL)以及多模态融合技术等核心功能于一体。 DeepSeek 在国际上获得了高度关注:下载量:DeepSeek 应用在美国苹果应用商店的免费下载排行榜中超越了 ChatGPT,攀升至榜首位置。
2/24/2025 10:07:10 AM
派大星

​OpenAI 最新研究揭示:最先进的 AI 仍难以解决编码问题

近日,OpenAI 的研究人员在一篇新发布的论文中坦言,尽管目前的 AI 技术已经相当先进,但这些模型依然无法与人类程序员相媲美。 OpenAI 首席执行官山姆・阿尔特曼曾表示,预计到今年底,AI 将能够战胜 “低级” 软件工程师,但研究结果却显示,这些 AI 模型仍然面临重大挑战。 图源备注:图片由AI生成,图片授权服务商Midjourney在研究中,OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试,评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。
2/24/2025 9:09:00 AM
AI在线

TOMG-Bench:大语言模型开放域分子生成新基准

编辑 | ScienceAI科学家提出了一个新的基准测试——TOMG-Bench,用于评估 LLM 在分子领域的开放域生成能力。 项目主页::: Datasets::、材料科学等领域进步的关键环节。 然而,传统的分子发现方法往往依赖于反复实验和数据分析,效率低下且成本高昂。
2/18/2025 4:25:00 PM
ScienceAI

短短10天,Ilya神秘初创SSI再融10亿美元!仅凭一个主页估值300亿

彭博独家称,Ilya神秘初创SSI即将融资超10亿美元,估值超300亿美元。 图片据介绍,总部位于旧金山的风险投资公司Greenoaks Capital Partners领投,计划投资5亿美元。 Greenoaks同时也是AI明星公司Scale AI和Databricks的投资者。
2/18/2025 8:56:05 AM
新智元

自主式AI崛起是否意味着SaaS的终结?

自主式AI崛起:SaaS的终结?不,是新的开始!在科技日新月异的今天,一个名为自主式AI的新星正在冉冉升起,它以其独特的魅力和无限的潜力,让人们对未来充满了遐想。 自主式AI,这种能够独立行动、自主决策的人工智能,正悄然改变着企业的运营模式,预示着软件应用的新纪元即将到来。 要点:动态AI生态系统:软件应用正从静态、单一的模式转变为动态、由AI驱动的生态系统,无缝集成各种业务需求。
2/18/2025 8:22:00 AM
Frank Palermo

Meta首席AI科学家认为当前GenAI和LLM将很快过时

Meta首席人工智能科学家Yann LeCun表示,目前的生成式人工智能(GenAI)和大型语言模型(LLM)范式可能很快就会过时。 他认为,这些系统需要新的突破来理解物理世界并与之互动。 LeCun在达沃斯世界经济论坛上谈到GenAI系统时表示:“没有人会再使用它们,至少不会将其作为人工智能系统的核心组件。
2/17/2025 11:04:27 AM
AI情报室

还在忙NSFC申报?试试DeepSeek R1结合牛津的推理Agent用变分推理生成国家自然科学基金申请书

又到了一年一度的国家自然科学基金申报季,众多科研工作者正在为申报书的撰写绞尽脑汁。 如何在有限的时间内,产出一份既专业严谨又富有创新性的申报材料,成为了许多研究者面临的挑战。 本文介绍了一种基于DeepSeek R1大模型与牛津大学最新推理Agent框架相结合的智能辅助方案。
2/17/2025 8:35:06 AM
AI修猫Prompt

DeepSeek671B提到的MOE是什么?图解MOE(混合专家模型)

本文仅做记录,图挺形象的。 原文:,你可能会在标题中看到“MoE”这个词。 那么,这个“MoE”到底代表什么?
2/17/2025 3:00:00 AM
Grootendorst

DeepSeek数学大翻车?普林斯顿谷歌锤爆LLM:做题不会推理,全靠死记硬背

破案了! 就在刚刚,来自普林斯顿和谷歌的研究者发现——大模型做数学题,不是靠推理,而是靠从训练集里记下的解题技巧! 论文地址:「未解之谜」一直困扰着不少业内人士:在数学上,LLM到底是学会了举一反三,还是只是学会了背题?
2/14/2025 10:23:00 AM
新智元

本地轻松使用Gemini 2.0 Pro

译者 | 布加迪审校 | 重楼谷歌加大了角逐人工智能领域的筹码,发布了最新的实验模型。 继DeepSeek和OpenAI之后,谷歌宣布推出Gemini 2.0 Flash以及两个新的实验模型:Gemini 2.0 Pro和Gemini 2.0 Flash-Lite。 据谷歌DeepMind团队声称,Gemini 2.0 Pro是其迄今为止最先进的模型,在编程性能和处理复杂提示方面表现出色。
2/14/2025 8:00:00 AM
布加迪

一文带你看懂开源大模型基石LLaMA核心技术点,DeepSeek/千问等LLM的模型结构基础

LLaMA是目前很多SOTA开源大模型的基础,包括DeepSeek、千问等在内的很多大模型的模型机构大体上都沿用了LLaMA。 因此,LLaMA在模型结构的设计上可以说是目前大模型的一种最佳实践。 这篇文章就给大家汇总一下LLaMA的核心模型结构。
2/14/2025 1:00:00 AM
Fareise

DeepSeek 系列模型详解之——DeepSeek LLM

DeepSeek LLM发布于2024年1月,收集了2万亿个词元用于预训练,在模型层面沿用了LLaMA的架构,并将余弦退火学习率调度器替换为多阶段学习率调度器,便于持续训练。 并从多种来源收集了超过100万个实例进行监督微调(SFT)。 此外,利用直接偏好优化(DPO)技术进一步提升模型的对话能力。
2/13/2025 11:00:30 AM
小喵学AI

近端策略优化(PPO)算法的理论基础与PyTorch代码详解

近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。 特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中,PPO扮演着核心角色。 本文将深入探讨PPO的基本原理和实现细节。
2/13/2025 10:34:30 AM
Dhanoop Karunakaran

推荐一个企业级知识图谱增强的检索增强生成(RAG)的项目

介绍Microsoft GraphRAG 是一个开源项目,旨在利用 Microsoft Graph 的强大功能构建企业级的知识图谱增强的检索增强生成(RAG)方案。 简单来说,它将企业内部的各种数据源(如邮件、文档、日历、联系人等)通过 Microsoft Graph 连接起来,形成一个结构化的知识图谱,然后利用这个知识图谱来增强 RAG 系统的检索能力,从而提升大语言模型(LLM)在企业应用中的问答和生成效果。 项目架构GraphRAG 的架构设计清晰且模块化,主要包含以下几个核心组件:(1) 数据连接器(Data Connectors):负责从各种企业数据源(如 Microsoft 365 服务,包括 Exchange Online、SharePoint Online、OneDrive、Teams 等)提取数据。
2/13/2025 9:01:03 AM
IT运维技术圈

AI已学会自我复制!复旦新研究:开源LLM克隆成功率最高90%

AI已跨越关键「红线」,实现了自我复制。 复旦大学的研究人员在一项新研究中,展示了两种开源的LLM具备自我克隆的能力。 在没有人类帮助的情况下,AI成功实现自我复制,这不仅是它超越人类的关键一步,也是「流氓AI」出现的早期信号。
2/12/2025 10:05:00 AM
新智元