模型
顶级AI智能体不会社交,创业远不如人类!CMU等:最多完成24%任务
如今,基于大模型的智能体,已经能完成许多在几年前还无法想象的任务,进步的速度是如此之快,以至于有些人甚至声称,在接下来的几年内,大多数人类劳动可能都可以实现自动化。 然而近日CMU、杜克大学等机构发表的一项研究却给这一期待泼了一盆凉水。 智能体运营公司还不可行论文链接: Agent Company,与人类员工类似,智能体需要执行软件开发、项目管理、财务分析等典型的商业环境中的任务。
1/26/2025 1:07:50 PM
新智元
全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻
这些天,硅谷彻底处于中国公司带来的大地震余波中。 全美都在恐慌:是否全球人工智能的中心已经转移到了中国? 就在这当口,全球复现DeepSeek的一波狂潮也来了。
1/26/2025 1:03:35 PM
新智元
世界模型再进化!博士AdaWM:自适应世界模型规划新SOTA
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接::基于自适应世界模型的自动驾驶规划。 基于世界模型的强化学习(RL)已经成为一种有前景的自动驾驶方法,它学习潜在动态模型并且用其训练规划策略。
1/26/2025 11:00:00 AM
自动驾驶专栏
人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者
捍卫「人类智慧」最后一战!刚刚,Scale AI和Center for AI Safety(CAIS)公布了「人类最后一场考试」结果! 新基准全称「人类最后一次考试」(Humanity’s Last Exam),简称「HLM」,包含3000个问题,由数百位领域专家开发,用于追寻人类知识推理的边界。 目前,最好的模型,准确率也小于10%,而且自信「过头」。
1/26/2025 9:45:00 AM
新智元
曝DeepSeek让Llama4未发布已落后!小扎坐不住了:2025预算4000亿起步,年底AI算力将达130万卡
Meta这次真的坐不住了,计划在AI上继续加码! 匿名员工爆料,黑马DeepSeek的出现,让Llama 4还未发布就已经落后,Meta慌了。 就在这一消息沸沸扬扬时,小扎放出消息,2025年继续扩大AI投资。
1/26/2025 9:00:00 AM
量子位
DeepSeek-R1持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看
“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪——刚刚,DeepSeek-R1跻身大模型竞技榜前三。 以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。 在复杂提示词/风格控制榜单上,R1位列第一。
1/26/2025 8:00:00 AM
量子位
颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级
最近,非营利研究机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。 OLMo 2系列包含7B和13B两个型号,相比如Llama 3.1和Qwen 2.5等开源模型达到了同等甚至更优的性能,同时FLOPS计算量更少,在性能和计算效率之间取得了极佳的平衡,为开源LLM开辟了新的可能性。 不同大小开源模型的性能对比,OLMo 2的表现优于同参数规模模型在多个下游任务上,OLMo 2展现出了强大的泛化能力和适应能力。
1/24/2025 3:40:00 PM
新智元
六大维度,LLM「问题生成」首次正面PK人类!伯克利等发布最新研究
长期以来,问题生成(Question Generation)任务都是根据「给定事实」来编写各种相关问题,已经发展出了很多自动化的方法。 大型语言模型(LLM)的兴起,极大提升了各种自然语言处理(NLP)任务的性能,其中也包括问题生成,虽然应用广泛,但还没有研究讨论过「用LLMs生成问题的特点」。 没有额外提示约束时,LLMs是更倾向于生成较长还是较短的问题?
1/24/2025 3:30:00 PM
新智元
OpenAI首个智能体Operator大测评,你也能拥有24小时私人管家!
演唱会抢票终于不用自己蹲守了,公司订餐也可以直接「无脑托管」,这就是OpenAI今天发布的Operator。 顾名思义,Operator就是能帮你端到端处理任务的AI智能体。 比较有趣的是,OpenAI针对Operator新开了一个网页operator.chatgpt.com,而不是像之前发布的功能都直接统一内置在ChatGPT中。
1/24/2025 3:09:43 PM
新智元
向视觉版o1出击,阶跃张祥雨团队推出“慢感知”,实现感知层面的推理时scaling
视觉版o1的初步探索,阶跃星辰&北航团队推出“慢感知”。 研究人员认为:1)目前多模领域o1-like的模型,主要关注文本推理,对视觉感知的关注不够。 2)精细/深度感知是一个复杂任务,且是未来做视觉推理的重要基础。
1/24/2025 3:05:09 PM
量子位
史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1
史上最难的大模型测试集来了! 包括o1在内,没有任何一个模型得分超过10%。 题目来自500多家机构的1000多名学者,最终入围的题目有3000多道,全部都是研究生及以上难度。
1/24/2025 3:03:27 PM
量子位
阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节
本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接: 模型训练中的关键问题混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。 基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。
1/24/2025 2:19:21 PM
机器之心
贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行
论文一作刘少腾,Adobe Research实习生,香港中文大学博士生(DV Lab),师从贾佳亚教授。 主要研究方向是多模态大模型和生成模型,包含图像视频的生成、理解与编辑。 作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。
1/24/2025 2:14:35 PM
机器之心
中国AI太强,Meta工程师吓疯?自曝疯狂熬夜复制DeepSeek,天价高管心虚了
今天,Meta员工在匿名社区TeamBlind上的一个帖子,在业内被传疯了。 DeepSeek,真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型,而且与o1不同, R1还是开源模型「Open Source Model」,比OpenAI还Open!更有人曝料,DeepSeek还只是个「副项目」,主业根本不是搞大模型!
1/24/2025 1:20:00 PM
新智元
阿里通义实验室提出AnyStory:开启个性化文本到图像生成的新篇章!
在这个数字化时代,生成式AI技术正以前所未有的速度改变着我们的创作方式。 近期,阿里通义实验室发表了一篇题为《AnyStory: Towards Unified Single and Multi-Subject Personalization in Text-to-Image Generation》的论文,该论文提出了一种创新的框架,旨在通过统一的路径实现单个及多个主体的个性化文本到图像生成,为故事可视化、艺术创作乃至更多领域带来了革命性的突破。 论文中深入探讨了当前文本到图像生成技术面临的挑战,如主体一致性、细节保留以及多主体个性化等方面的不足。
1/24/2025 12:11:21 PM
AIGC Studio
2025智能体元年!斯坦福科学家8000字讲清所有要点
许多人认为「智能体」是AI发展的终极目标。 智能体在处理复杂任务时,展现出了巨大潜力。 从协助搭建网站、管理客户账户,到开展市场调研、自动录入数据,智能体的应用场景日益广泛。
1/24/2025 9:30:00 AM
新智元
两分钟完成论文调研!ByteDance Research推出论文检索智能体PaSa,远超主流检索工具
2025 被称为 Agent 元年,新年伊始,ByteDance Research 就推出了一款基于强化学习的智能体应用:论文检索智能体。 它可以模仿人类研究者调用搜索引擎、看论文、查参考文献。 繁琐冗长的论文调研,现在,只需要两分钟。
1/24/2025 8:45:00 AM
机器之心
小模型也能玩转RAG!性能仅降1%,存储省75%,边缘设备轻松跑
检索增强生成(RAG)虽好,但一直面临着资源消耗大、部署复杂等技术壁垒。 近日,香港大学黄超教授团队提出MiniRAG,成功将RAG技术的应用门槛降至1.5B参数规模,实现了算力需求的大幅降低。 这一突破性成果不仅为边缘计算设备注入新活力,更开启了基于小模型轻量级RAG的探索。
1/23/2025 5:00:00 PM
量子位
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
图像
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
RAG
具身智能
AI视频
人形机器人
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
DeepMind
架构
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
MCP
预测