AI在线 AI在线

大型语言模型

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker

大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。 然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。 这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破,推动了对千亿参数以下小型模型强化学习能力的探索。
7/3/2025 12:00:57 PM
AI在线

科学家们有话说!SciArena 平台上线,多维度评测大语言模型科学表现

一个名为 SciArena 的全新开放平台现已上线,旨在通过人类偏好评估大型语言模型(LLM)在科学文献任务中的表现。 早期结果已揭示不同模型之间存在显著的性能差距。 SciArena 由耶鲁大学、纽约大学和艾伦人工智能研究所的研究人员共同开发,旨在系统性评估专有和开源 LLM 处理科学文献任务的效果,填补了该领域系统性评估的空白。
7/3/2025 10:00:57 AM
AI在线

提示工程运维崛起:应对错误输入和语境膨胀带来的隐性AI成本

模型提供商不断推出越来越复杂的大型语言模型(LLM),这些模型具有更长的上下文窗口和增强的推理能力。 这使得模型能够处理更多信息并进行更多“思考”,但同时也增加了计算量:模型处理和输出的信息越多,消耗的能量就越大,成本也就越高。 再加上提示词调整(prompting)所涉及的反复试验——可能需要尝试几次才能得到预期结果,而且有时手头的问题根本不需要一个能像博士那样思考的模型——计算支出可能会失去控制。
7/2/2025 7:25:00 AM
Taryn

苹果 AI 团队遭遇动荡:顶尖研究员离职引发信任危机

最近,苹果公司在人工智能领域面临了一场不小的风波。 一位重要的高级研究员汤姆・冈特(Tom Gunter)在公司工作八年后选择离职,这一消息引发了内部的广泛关注。 冈特在大型语言模型方面的专业知识被认为是无可替代的,尤其是在当前竞争对手如 Meta 和 OpenAI 都在通过高额薪资挖角人才的情况下。
7/1/2025 10:01:01 AM
AI在线

智能体规模化部署的隐形悬崖:如何避免部署崩盘?

想要构建并扩展智能体的企业还需要接受另一个现实:智能体的构建方式与其他软件截然不同。 根据Writer公司的CEO兼联合创始人May Habib的说法,智能体在构建方式、运行方式以及改进方式上都“有着根本的不同”,这意味着在处理自适应系统时,需要摒弃传统的软件开发生命周期(SDLC)。 “智能体并不总是可靠地遵循规则,”Habib在周三VB Transform大会的舞台上表示,“它们是结果导向的,它们会解读信息,会适应变化,而且,它们的行为真的只有在现实世界环境中才会显现出来。
6/30/2025 7:07:00 AM
Marty Swant

大语言模型热潮与现实的差距:CISO应关注什么

从AI应用中的风险,如中毒的训练数据和幻觉现象,到AI赋能的安全措施,再到深度伪造、用户错误以及新型AI生成的攻击技术,网络安全行业正充斥着令人恐惧的安全威胁,这些威胁让CISO们不堪重负。 例如,在2025年4月的RSA会议期间及之后,与会者纷纷对AI带来的恐惧、不确定性和怀疑(FUD)表示强烈不满,尤其是供应商方面的表现。 其中一位是Netflix的信息风险工程师Tony Martin-Vegue,他在RSAC会议后的采访中告诉记者,虽然AI的炒作和潜力很大,但无法阻止其发展,不过有方法可以穿透炒作,并在最关键的地方应用基本控制措施。
6/27/2025 7:12:00 AM
Deb Radcliff

LLM 的反馈困境:为何大型语言模型难以完全吸收外部建议

大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)正以前所未有的速度改变着我们处理信息和解决问题的方式。 然而,在当下落地 AI 应用时,一个关键问题逐渐浮出水面:LLM 是否能够真正理解并整合外部反馈,从而实现自我改进并达到其性能的极限?
6/25/2025 10:21:08 AM
肆零柒

加州法院裁定使用版权内容训练 AI 合规,引发创作者担忧

美国加州北区地方法院作出了一项重要裁决,允许使用受版权保护的作品来训练人工智能模型。 这个决定引发了广泛的关注和争议,尤其是在创意产业中,许多艺术家和内容创作者对此表示担忧。 裁决支持了被告 Anthropic 公司在没有授权的情况下使用盗版材料来训练其 AI 模型 Claude,进一步引发了关于创作者权益的讨论。
6/25/2025 9:00:44 AM
AI在线

AI 逆袭:大型语言模型助力癌症新药研发,竟然能 “发明” 疗法!

近日,一项来自剑桥大学等机构的研究成果引发了广泛关注:大型语言模型(LLMs)不仅在自然语言处理领域崭露头角,还能为癌症治疗带来新的希望。 研究人员利用 GPT-4模型,首次尝试将其作为科学假说的生成工具,在乳腺癌的药物研发上取得了令人振奋的进展。 在这项研究中,团队的目标是找到能够有效对抗乳腺癌的新药物组合。
6/24/2025 10:00:51 AM
AI在线

大型语言模型微调全攻略:从理论到实战的终极指南

译者|朱先忠审校|重楼微调是将预先在海量通用数据上训练好的大型语言模型,在更小、更具体的领域或任务数据集上进一步训练的过程。 其核心在于利用预训练模型获得的通用语言理解能力,通过特定数据进行针对性调整,使模型能深刻理解专业术语、领域规则和任务要求,从而生成更准确、更符合特定需求的输出。 引言想象你拥有一个像GPT-3或Llama 3这样强大的LLM,它已在互联网规模的文本上进行了预训练,能回答一般问题、创作文本、总结文章、翻译语言。
6/24/2025 8:52:54 AM
朱先忠

模型合并 之 PMA 策略:大型语言模型预训练的 “加速引擎”

大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)在自然语言处理、智能问答系统和代码生成等众多任务中展现出卓越能力。 然而,这些模型的发展面临诸多挑战,包括预训练成本高昂、特定领域后训练效果有限、性能扩展预测不确定以及大规模训练不稳定等问题。
6/24/2025 3:00:00 AM
肆零柒

用AI会让人变笨!研究揭示:过度依赖AI或导致损坏批判性思维与记忆力

一项由麻省理工学院媒体实验室的Nataliya Kosmyna及其团队主导的最新研究,深入探讨了在论文写作任务中,使用大型语言模型(LLM)如OpenAI的ChatGPT可能带来的认知成本。 该研究发现,尽管LLM产品为人类和企业带来了诸多便利,但其广泛应用却可能导致大脑积累“认知负债”,长远来看甚至会削弱个体的学习技能。 该研究招募了54名参与者,并将其分为三组:LLM组(仅使用ChatGPT)、搜索引擎组(使用传统搜索引擎,禁用LLM)和纯脑力组(不使用任何工具)。
6/20/2025 11:01:11 AM
AI在线

模型合并之 PMA 策略:大型语言模型预训练的 “加速引擎”

大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)在自然语言处理、智能问答系统和代码生成等众多任务中展现出卓越能力。 然而,这些模型的发展面临诸多挑战,包括预训练成本高昂、特定领域后训练效果有限、性能扩展预测不确定以及大规模训练不稳定等问题。
6/19/2025 10:09:55 AM
肆零柒

大模型推理大变革!CMU 与英伟达携手推出 Multiverse,实现超高速并行生成

随着人工智能的发展,大型语言模型(LLM)的应用越来越广泛,但目前的推理方式仍然存在不少局限性。 传统的自回归生成方式需要逐个生成 token,效率较低且无法充分利用现代硬件的并行计算能力。 为了解决这一问题,卡耐基梅隆大学(CMU)与英伟达的研究团队推出了一种名为 Multiverse 的新型生成模型,旨在实现原生并行生成,从根本上改变我们对 LLM 推理的理解。
6/18/2025 10:01:58 AM
AI在线

颠覆传统!新多智能体框架OWL获17K Star,超越OpenAI开创智能协作新时代

随着大型语言模型(LLM)的迅猛发展,单一智能体在应对复杂现实任务时显露出诸多局限。 为了解决这个问题,香港大学与 camel-ai 等多家机构联合推出了一种名为 Workforce 的全新多智能体框架,并配套了一种名为 OWL(Optimized Workforce Learning)的训练方法。 最近,这一创新成果在权威基准测试 GAIA 上获得了69.70% 的准确率,不仅刷新了开源系统的记录,还超越了 OpenAI Deep Research 等多家商业系统。
6/17/2025 3:01:49 PM
AI在线

微软AI重磅发布Code Researcher:58%崩溃解决率震撼业界!

Microsoft AI重磅发布了一款名为Code Researcher的深度研究代理工具,专为处理大型系统代码和提交历史而设计。 这一创新工具旨在应对复杂系统代码(如Linux内核)中调试和修复崩溃的挑战,标志着AI在软件开发领域的又一次重大突破。 AIbase从最新公开信息中获悉,Code Researcher通过多步骤推理和语义分析,显著提升了系统级软件维护的效率和准确性。
6/16/2025 10:10:03 AM
AI在线

迈向人工智能的认识论:真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗

如果大型语言模型能够推理,但没有人能够看到它是如何推理的,那么它真的在思考吗? 简而言之,像 GPT-4 这样的大型语言模型 (LLM) 展现出卓越的能力,但其运作方式却如同“黑匣子”,这意味着它们的内部决策过程在很大程度上是不透明的,甚至对其创建者而言也是如此。 本系列文章综合了近期关于 LLM 可解释性的研究,重点关注这些模型的推理方式、其解释的可靠性(思维链)以及对安全性和部署的影响。
6/16/2025 2:30:00 AM
晓晓

突破传统!FUDOKI 模型让多模态生成与理解更灵活、更高效

近年来人工智能领域发生了翻天覆地的变化,尤其是大型语言模型(LLMs)在多模态任务上取得了显著进展。 这些模型在理解和生成语言的能力上展现出了强大的潜力,但目前大多数多模态模型依然采用自回归(AR)架构,推理过程较为单一、缺乏灵活性。 为此,香港大学和华为诺亚方舟实验室的研究团队提出了一种全新的模型 ——FUDOKI,旨在打破这一局限。
6/10/2025 7:00:56 PM
AI在线