LLM
谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展。 它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超越了人类平均水平。 这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域。
6/19/2025 9:04:00 AM
告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025
还在靠“开盲盒”选择大模型? 来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM——大幅提升选型效果的同时,成本却降低近90%。 众所周知,在大模型如雨后春笋般爆发的时代,选型成了AI工程师和研究员最大的痛点之一:模型多如牛毛,怎么选才不会“踩坑”?
6/19/2025 8:55:00 AM
字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题
AI字幕总是慢半拍,质量和延迟难以平衡是业界老问题了。 为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。 在70亿参数(7B)规模上实现SOTA。
6/19/2025 8:49:00 AM
在扩展GenAI应用前,请先绘制你的LLM使用与风险版图
他解释说,随着GenAI功能的普及,企业必须实施保护措施来管理风险,特别是在输入/输出处理和微调实践方面,尽早建立这些控制措施可以确保安全、合规地采用AI,同时不损害创新。 对于那些已经推出了GenAI功能的团队,他们首先应该审计或检查什么?GenAI . 以传统威胁模型经常忽视的方式扩大了你的攻击面,新进入这一领域的安全从业人员应该首先了解这类新的漏洞以及如何防御它们,一个好的起点是OWASP为大型语言模型(LLM)制定的十大安全风险列表,其中概述了常见的漏洞,如提示注入、数据泄露和不安全的插件设计。
6/19/2025 1:30:00 AM
Mirko
规模化应用生成式 AI 前,需先绘制 LLM 使用与风险图谱
在本次Help Net Security访谈中,The Motley Fool应用与云安全总监Paolo del Mundo探讨了企业如何通过建立防护机制来扩展AI应用规模,同时降低提示注入、不安全输出和数据泄露等生成式AI特有风险。 已部署AI功能团队的首步审计重点生成式AI以传统威胁模型常忽视的方式扩大了攻击面。 新入行的安全从业者应首先了解这类新型漏洞及其防御方法。
6/18/2025 9:50:09 AM
Gy0un
AI记忆革命:能否突破数据牢笼,媲美人脑的适应性?
译者 | 朱先忠审校 | 重楼本文要讨论什么内容? Meta公司努力开发出的CoCoMix(Continuous Concept Mixing:连续概念混合,出自Jihoon等人2025年发表的论文,见【引文1】)框架实现了概念学习,即学习单词背后的概念而不是仅仅预测下一个标记,从而使其具有极强的可操控性和可解释性。 但是,依然存在一个核心问题:即使是概念上非常出色的模型,在训练之后的实际部署中,也可能难以应对细微差别或事实性的回忆挑战。
6/18/2025 8:26:01 AM
朱先忠
使用谷歌的最新应用程序,免费本地运行LLM
译者 | 布加迪审校 | 重楼谷歌的Edge Gallery刚刚让AI界迎来了巨大飞跃。 就在上周,谷歌悄然发布了AI Edge Gallery,这是一款普及AI的应用程序。 谷歌Edge AI可以直接在我们的智能手机上执行强大的语言模型,摆脱依赖云的局面,而且不收订阅费。
6/18/2025 8:12:14 AM
布加迪
AM-Thinking-v1:解锁 32B 模型推理潜力的密码
大家好,我是肆〇柒。 本篇想和大家分享一个后训练的模型案例 ——AM-Thinking-v1 模型。 这个模型是由贝壳(Ke.com)公司旗下的 a-m-team 团队开发的,他们一直致力于探索 AGI 技术。
6/18/2025 2:30:00 AM
肆零柒
LLM 翻车现场!ChatGPT 挑战 1979《Video Chess》惨败:连车马象都认错
一场 ChatGPT 对战 Atari 2600 的象棋对局火了。 具体而言,在一场看似轻松的“AI玩具对决”里,ChatGPT输给了Atari 2600 的象棋引擎,对手只是一台48年前、频率1.19 MHz的8位主机。 图片起初,这只是Robert Jr.
6/17/2025 5:16:51 PM
鹅厂实习生血泪贴:Agent/RAG 黑科技,真相竟是这样!
作者 | 33号实验室/knnwang被Agent/RAG吊打? 你缺的不是智商,是这篇文章! 亲历鹅厂IEG/WXG项目实战,大三菜鸟用血泪debug记录, 撕开AI基石真面目 → 黑科技本质 = ______!
6/17/2025 9:15:07 AM
腾讯技术工程
迈向人工智能的认识论:如何推理对齐和改变他们的思维
要理解 LLM 的行为方式,回顾一下其架构基础知识会很有帮助:Transformer。 Vaswani等人提出的 Transformer 从根本上建立在自注意力层之上。 每一层都允许模型在输入以及之前生成的输出token 之间动态地重新分配注意力,这意味着它可以在每一步检索它认为相关的任何信息。
6/17/2025 6:21:13 AM
晓晓
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
本文共同一作是张翔和曹峻泰。 张翔是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和 AI for Science;曹峻泰是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和可解释性研究;本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽,以及来自 Meta Gen AI 的研究员丁渡鉴。 近年来,大型语言模型(LLM)在自然语言处理领域取得了革命性进展。
6/16/2025 2:44:14 PM
Apple Again Criticized for AI Reasoning Ability: GitHub Celebrity Rebuttal: This Is Not the Real Picture of Reasoning Ability!
Recently, Apple published a controversial paper pointing out significant defects in the reasoning abilities of current large language models (LLMs). This view quickly sparked heated discussions on social media, especially among senior software engineer Sean Goedecke from GitHub, who strongly opposed this conclusion. He argued that Apple's findings were overly simplistic and could not fully reflect the capabilities of reasoning models.Apple's paper highlighted that LLMs perform inconsistently when tackling benchmark tests such as mathematics and programming.
6/16/2025 9:49:06 AM
AI在线
Thinkless框架:让LLM学会“聪明偷懒”的智慧
大家好,我是肆〇柒。 今天,我想和大家聊一下,我看到关于自适应思考的另外一片论文,它介绍了Thinkless 框架,并且还有开源仓库。 今天我们要了解的 Thinkless 这个框架,由新加坡国立大学的研究人员提出,它能够巧妙地解决当前推理语言模型(LLM)在处理简单问题时过度推理、浪费资源的难题。
6/16/2025 9:40:48 AM
肆零柒
苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷
几天前,苹果一篇《思考的错觉》论文吸睛无数又争议不断,其中研究了当今「推理模型」究竟真正能否「推理」的问题,而这里的结论是否定的。 论文中写到:「我们的研究表明,最先进的 LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能发展出可泛化的解决问题能力 —— 在不同环境中,当达到一定复杂度时,准确度最终会崩溃至零。 」不过,这篇论文的研究方法也受到了不少质疑,比如我们的一位读者就认为「给数学题题干加无关内容,发现大模型更容易答错,而质疑大模型不会推理」的做法并不十分合理。
6/16/2025 8:48:00 AM
LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
近段时间,关于 AI 自我演进/进化这一话题的研究和讨论开始变得愈渐密集。 本月初我们就曾梳理报道了一些,包括 Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文-哥德尔机(DGM)」、CMU 的「自我奖励训练(SRT)」、上海交通大学等机构提出的多模态大模型的持续自我改进框架「MM-UPT」、香港中文大学联合 vivo 等机构的自改进框架「UI-Genie」。 那之后,相关研究依然还在不断涌现,以下拼图展示了一些例子:而前些天,OpenAI CEO、著名 𝕏 大 v 山姆・奥特曼在其博客《温和的奇点(The Gentle Singularity)》中更是畅想了一个 AI/智能机器人实现自我改进后的未来。
6/16/2025 8:46:00 AM
别让千亿参数成摆设!万字解读LLM应用的生存法则
现在大家都在聊大模型,动不动就说什么“智能涌现”、“颠覆行业”。 但说实话,真正能把大模型用好的,不是谁喊得响,而是看谁的系统设计够硬核! 什么是大模型应用系统设计?
6/16/2025 8:06:51 AM
曹洪伟
AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字
在进入本文之前,我们先来玩个 10 秒小游戏:在心里选一个「1-10」的整数。 现在设想我问:「你想的是 5 吗? 」如果听到是自己的数字,你会本能地答 Yes,其余统统 No。
6/16/2025 6:00:00 AM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
英伟达
Anthropic
代码
算法
训练
Stable Diffusion
芯片
开发者
蛋白质
腾讯
LLM
生成式
苹果
Claude
神经网络
Agent
AI新词
3D
机器学习
AI for Science
研究
生成
xAI
人形机器人
AI视频
计算
Sora
GPU
AI设计
百度
华为
工具
搜索
大语言模型
具身智能
场景
RAG
字节跳动
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
架构
Copilot
DeepMind
模态
安全