AI
开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。 近期,普林斯顿大学 AI Lab 推出了 Alita——一个秉持「极简即是极致复杂」哲学的通用智能体,通过「最小化预定义」与「最大化自我进化」的设计范式,让智能体可以自主思考、搜索和创造其所需要的 MCP 工具。 论文标题:ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION论文链接::: 目前已在 GAIA validation 基准测试中取得 75.15% pass@1 和 87.27% pass@3 的成绩,一举超越 OpenAI Deep Research 和 Manus 等知名智能体,成为通用智能体新标杆。
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
来自清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统 —— AReaL-boba² (AReaL v0.3)。 作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 “全面开源、极速训练、深度可定制” 的开发理念,再次加量:除了更全的功能和更详细的文档说明,更以全异步 RL 为核心,发布 SOTA 代码模型,全面奔向 Agentic RL:🚀 效率再突破: 全面实现异步 RL 训练,完全解耦模型生成与训练,效果不变的前提下训练速度对比上一版本最高提升 2.77 倍,GPU 资源利用率大幅优化。 📚 上手零门槛: 新增详细教程 (Step-by-Step Tutorials) 和深度文档 (Comprehensive Documentation),覆盖安装、核心概念、算法 / 模型定制化到问题排查,新手友好,老手高效。
英伟达发布 Llama Nemotron Nano VL AI:高效精准,攻克复杂文档解析难题
Llama Nemotron Nano VL 融合了 CRadioV2-H 视觉编码器和 Llama 3.1 8B 指令微调语言模型,能同时处理多页文档中的视觉和文本元素,支持最长 16K 的上下文长度,覆盖图像和文本序列。
4 个月内增加 100 万,OpenAI 宣布付费 ChatGPT AI 商业订阅用户突破 300 万
在昨日(6 月 3 日)举办的在线直播活动中,OpenAI 公司宣布在全球范围内,其付费商业订阅用户数量超过 300 万。
Hugging Face 称其开源机器人模型 SmolVLA 效率极高,能在苹果 MacBook 上运行
Hugging Face发布开源机器人AI模型SmolVLA,该模型轻量级但性能强大,可在消费级GPU上运行,支持异步推理堆栈,提升机器人响应速度。#AI技术# #机器人#
Mac 版 ChatGPT 变身生产力神器:AI 录音 + 云文件洞察,打造团队协作最佳助手
科技媒体 9to5Mac 昨日(6 月 4 日)发布博文,报道称 OpenAI 公司重点服务于团队和小型企业,全力推动 ChatGPT 转型为真正的生产力助手。
人工智能和知识图谱四:知识图谱的超大规模产品
一、亚马逊网络服务 (AWS) — Amazon NeptuneAWS 的主要图形数据库服务是Amazon Neptune,这是一款完全托管的图形数据库引擎。 Neptune 功能多样,既支持 使用 SPARQL 查询的RDF 模型,也支持使用 Apache TinkerPop Gremlin 查询的属性图模型。 这种双重支持使 Neptune 适用于各种 KG 实现——您可以使用 RDF/OWL 存储语义知识图并通过 SPARQL 进行查询,或者将属性图方法与 Gremlin 结合使用。
AI Agent的新技术栈:Kafka、A2A、MCP 和 Flink
在网络拥有 HyperText Transfer Protocol (HTTP) 之前,在电子邮件拥有 Simple Mail Transfer Protocol (SMTP) 之前,我们受困于定制化集成、碎片化系统和脆弱的工作流程。 直到开放协议和共享基础设施出现,互联网才真正实现规模化,解锁了现代网络、全球通信和整个经济体系。 如今,AI 代理正处于类似的预标准化阶段。
AI Agent落地面临的三大挑战
前面为大家介绍过AI Agent的发展史和工程结构模型,并对Agent的典型代表——Manus的技术架构进行了详细解析。 不少同学看完后纷纷留言说,他们在工作中也尝试在推动落地Agent,但结果总是不尽如意,希望我能给出一些建议。 我自己目前对AI Agent也处在探索实践阶段,并无法给出很好的建议。
韩国总统李在明承诺 100 万亿韩元 AI 投资计划,大力扩展基础设施建设
100 万亿韩元民间投资将通过设立国家基金实现,允许民众、企业、政府及养老基金等多元经济主体参与。个人与企业投资时可享受所得税、法人税减免。
DeepSeek-V3 & R1 合体:快手开源 "Auto Think" 大模型,可根据问题自动调节思考深度
快手 Kwaipilot 团队开源了 KwaiCoder-AutoThink-preview 自动思考大模型,该模型融合了“思考”和“非思考”能力,号称“DeepSeek-V3 & R1 合体”,具备根据问题难度自动切换思考形态的能力。
铁了心为Agent开发铺路!OpenAI“真香”式升级:跳出Python圈、可人类干预、实时语音Agent、全链路追踪,代理福音
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)OpenAI 又放大招了! 用实力正名:在AI圈,自己的“一哥”地位不可动摇! 就在今天凌晨,OpenAI 官方开发者账号 @OpenAIDevs 在 X 平台上,一口气连续发布了 4 项关键更新,直接把 AI 代理(Agent)开发体验提升到新维度,围绕 Agent 开发体验、实时语音应用、人类干预机制和全链路追踪都做了重要升级。
最新发现!每参数3.6比特,语言模型最多能记住这么多
语言模型到底能记住多少信息? Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示:每个参数大约 3.6 比特。 一旦达到这个极限,它们就会停止记忆并开始泛化。
冲击自回归,扩散模型正在改写下一代通用模型范式
上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。 在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。 从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转
本文第一作者为刘启昊,约翰霍普金斯大学计算机科学博士四年级学生,师从 Alan Yuille 教授,研究方向涉及模型鲁棒性、生成模型与 3D 视觉。 通讯作者为 Mannat Singh,Meta GenAI 研究员,近期的研究主要涉及视频生成领域创新工作,包括 Emu Video、MovieGen 等项目。 在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。
GPT-4o连验证码都解不了?SOTA模型成功率仅40%
当前最强多模态Agent连验证码都解不了? MetaAgentX团队推出首个专注于“多模态交互智能体×CAPTCHA(人机验证)问题”的开放式研究平台——Open CaptchaWorld。 该平台专门用于测试Agent解验证码的能力。
“AI 教父”本希奥宣布开发“诚信”系统,防范智能体欺骗人类
“AI 教父”约书亚・本希奥(Yoshua Bengio)成立 LawZero 非营利组织,致力于开发“诚实”的 AI 系统,用以识别“流氓”AI 系统。
让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%
想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。 这一系列过程依赖人类强大的空间-时间长时记忆。 图片如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉