资讯列表
准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了
又是一个让程序员狂欢的研究! 来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。 该研究已被 ACL 2025 录用。
5/29/2025 9:18:20 AM
初探 Deepseek R1-0528 开源模型:AI 编程能力跃升,媲美 OpenAI o3 和 o4-mini
深度求索(Deepseek)昨日通过官方交流群,邀请用户测试 DeepSeek-R1-0528 模型小版本,初步测试结果表明,R1-0528 在编程能力、审美设计和代码补全等方面表现出色,尤其在复杂指令处理和前端页面生成上展现了高精度和高效能。
5/29/2025 9:16:36 AM
故渊
爆火论文颠覆RL认知!「错误奖励」让LLM推理暴涨24.6%,学界惊了
今早的一篇爆火论文,彻底颠覆了人们对「强化学习」的传统认知。 仅用随机奖励,甚至是错误答案,也能让AI在数学推理中性能暴涨! 来自华盛顿大学、AI2、UC伯克利研究团队证实,「伪奖励」(Spurious Rewards)也能带来LLM推理能力提升的惊喜。
5/29/2025 9:14:17 AM
阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。 对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。 并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。
5/29/2025 9:14:00 AM
19岁少年用计算机炼出「神药」,斩获全球大奖!大厂看了都沉默
「少年药神」来了! 来自斯洛伐克的19岁少年Adam Kovalčík,凭借计算机模拟设计的新分子,一举夺得全球顶级大奖! 这些分子有望像广谱抗病毒药物Galidesivir一样有效阻止病毒复制。
5/29/2025 9:10:18 AM
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择
在日益强调“思维能力”的大语言模型时代,如何让模型在“难”的问题上展开推理,而不是无差别地“想个不停”,成为当前智能推理研究的重要课题。 中国科学院自动化研究所联合鹏城实验室提出了一种高效的推理策略,赋予推理大模型根据题目难度自主切换思考模式的能力:通过一个小小的省略号作为提示词 多阶段强化学习,引导大模型自主决定是否深度思考、思考多少。 研究背景:大模型“想太多”,是优点还是负担?
5/29/2025 9:08:00 AM
刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了
就在今天凌晨,新版DeepSeek-R1正式开源了! DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。 图片项目地址:,DeepSeek-R1完成了超进化,编码能力强到离谱,而且思考时间更长了。
5/29/2025 9:07:37 AM
新智元
刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了
就在今天凌晨,新版DeepSeek-R1正式开源了! DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。 项目地址:,DeepSeek-R1完成了超进化,编码能力强到离谱,而且思考时间更长了。
5/29/2025 9:04:51 AM
DeepSeek 全新开源R1-0528 模型登场,性能媲美 OpenAI o3 模型
今天凌晨,知名的开源大模型平台 DeepSeek 发布了其最新版本 R1(0528),引起了广泛关注。 此次发布没有附带详细说明,DeepSeek 选择了 “悄然” 开放模型,预计后续会发布模型卡,进一步介绍其功能。 据悉,R1-0528版本的性能在著名代码测试平台 Live CodeBench 上的测试结果显示,其表现与 OpenAI 最新的 o3模型相当。
5/29/2025 9:00:51 AM
AI在线
OpenAI 首席财务官透露 IPO 新动向,市场情绪将决定未来
在最新的财务战略会议上,OpenAI 首席财务官 Sarah Friar 表示,公司的重组计划为未来可能的首次公开募股(IPO)铺平了道路。 她指出,尽管这一决定的实施尚未确定,但将取决于市场的整体情绪以及 OpenAI 自身的准备情况。 根据 Friar 的介绍,OpenAI 已经成功获得了来自微软超过130亿美元的投资,这为公司未来的发展提供了坚实的资金支持。
5/29/2025 9:00:50 AM
AI在线
OpenAI CFO 透露:重组新架构为未来可能的IPO打开大门
OpenAI 的首席财务官莎拉・弗里尔(Sarah Frier)近日在都柏林科技峰会上透露,公司正在进行的组织重组为未来可能的首次公开募股(IPO)铺平了道路。 虽然 OpenAI 正在积极准备,但能否顺利上市还需视公司自身的准备程度以及资本市场的整体氛围而定。 图源备注:图片由AI生成,图片授权服务商Midjourney弗里尔提到,微软对 OpenAI 的投资已经超过了130亿美元,约合935亿元人民币。
5/29/2025 9:00:50 AM
AI在线
马斯克的xAI与 Telegram 达成3亿美元合作协议,推出Grok AI聊天机器人
在近期的科技新闻中,Telegram 的 CEO 帕维尔・杜罗夫(Pavel Durov)宣布与埃隆・马斯克创办的 xAI 公司达成一项重磅合作协议。 根据协议,xAI 将向总部位于迪拜的通讯平台支付3亿美元,以部署其最新的人工智能聊天机器人 Grok。 这一合作关系为期一年,杜罗夫表示,此举将极大增强 Telegram 的财务状况。
5/29/2025 9:00:50 AM
AI在线
Opera推出AI代理浏览器Neon:承诺替用户购物编码,但需付费订阅
Opera公司周二正式发布了全新的Opera Neon浏览器,这款产品专门针对AI工作流程设计,承诺能够代替用户执行购物、填写表格和编程等复杂任务。 核心功能与订阅模式Opera Neon目前仍处于候补状态,公司确认正式发布后将采用订阅收费模式,但具体价格尚未公布。 该浏览器的最大亮点在于侧边栏新增的三个功能按钮:聊天、执行和制作。
5/29/2025 9:00:50 AM
AI在线
开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微
当前的大模型开发生态,被一份报告、完整全景图谱讲清楚了。 就在第十届527蚂蚁技术日上,蚂蚁通过Coding范式、数据、模型部署等角度,对现有开源生态进行了全面完整的大剖析,从数据的视角揭示了大模型开源生态的演进规律,如果你是大模型开发者或者潜在的开发者,几乎研究好这份报告可能就够了。 但这还不够,在报告出炉之前的周末,蚂蚁还发布了2025大模型开源生态全景图,涵盖19个技术领域、135个项目,进一步给出了大模型开发生态的参考系。
5/29/2025 8:58:08 AM
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
大模型做数独,总体正确率只有15%? ? ?
5/29/2025 8:47:00 AM
快速理解热门 LLM 大语言模型
作者 | masonpy本文尽量用最简单的方式, 帮读者理解 LLM,Transformer, Prompt, Function calling, MCP, Agent, A2A 等这些基本概念。 表述时不追求绝对准确,尽量通俗易懂,部分内容有个人理解的成份,内容难免疏漏, 欢迎指正。 注意:本文需要你有基本的代码阅读能力,当然非开发阅读也不会很困难。
5/29/2025 8:30:00 AM
腾讯技术工程
AlphaEvolve: 谷歌DeepMind迈向通用人工智能(AGI)的突破性一步
译者 | 李睿审校 | 重楼谷歌DeepMind推出的AlphaEvolve旨在自主发现算法和科学解决方案。 它基于进化计算原理,通过LLM驱动的独立进化流程,不断优化代码。 AlphaEvolve不仅超越人类专家设计的算法,还在数学和谷歌基础设施优化上取得突破。
5/29/2025 8:19:49 AM
李睿
单人公司能否纯凭AI智能体发育成独角兽?有戏!
译者 | 核子可乐审校 | 重楼如果你正在寻找一种替代打工生活的选择,那么自营职业——也被称为“个体创业”(solopreneuring)——可能是个好思路。 你可以凭借自己的软件开发、设计或商业技能作为独立承包商谋求发展。 或者,大家甚至可以独立创办一家公司以获得更大的回报。
5/29/2025 8:13:35 AM
核子可乐