数据
轨迹预测新基准!清华开源Ultra-AV:统一自动驾驶纵向轨迹数据集
摘要自动驾驶车辆在交通运输领域展现出巨大潜力,而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。 现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足,从而限制了有效的性能度量分析和模型开发。 本研究针对这些挑战,构建了一个(Ultra-AV),用于分析自动驾驶汽车的微观纵向驾驶行为。
2/7/2025 10:17:55 AM
Hang Zhou等
16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling
OpenAI o系列模型为何性能如此强大? OpenAI将他们的方法描述为使用大规模强化学习(RL),暗示使用了大量的数据。 最近大火的DeepSeek-R1模型也通过使用数百万个样本和多个训练阶段使用强化学习的方式,成功地达到了o1级别的性能。
2/6/2025 2:28:16 PM
新智元
【RAG】RAG范式演进及Agentic-RAG总结综述
RAG的核心思想是通过实时数据检索弥补这一缺陷——在生成答案前,系统先从外部数据源(如数据库、API或互联网)动态检索相关上下文,再结合LLM的知识生成更精准、实时的响应。 但它们通常在处理动态、多步推理任务、适应性和复杂工作流的协调方面仍然存在不足。 rag三大组件检索器(Retriever):从外部数据源(如向量数据库、知识图谱或网页)中搜索与查询相关的信息。
2/6/2025 1:50:06 PM
余俊晖
终结谷歌搜索!OpenAI免费开放ChatGPT搜索,无需注册
今天凌晨3点,OpenAI宣布向所有用户开放ChatGPT搜索功能,无需注册。 与谷歌那种传统收录模式的搜索引擎相比,ChatGPT搜索可以更快抓取网络信息,能实现分钟级别的解析,这对于股票、体育、财经等,需要第一时间快速获取新闻内容的行业帮助非常大。 同时借助大模型的能力,可以更好地解读用户的搜索想法,并且可以提供搜索结果的源地址。
2/6/2025 11:00:00 AM
AIGC开放社区
快手发布DragAnything,拖动锚点精准控制视频物体和镜头运动,视频运动控制技术革命性更新
快手联合浙江大学、新加坡国立大学发布了DragAnything ,利用实体表示实现对任何物体的运动控制。 该技术可以精确控制物体的运动,包括前景、背景和相机等不同元素。 该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。
2/5/2025 10:30:00 AM
AIGC Studio
闲来无事,我测了测国产大模型的RAG能力 新智元 新智元 2025年01月27日 12:25 北京
最近,AI界被推理模型刷屏了。 国内各家的推理模型,在新年到来之际不断刷新我们的认知。 不过,当我们在实际应用中考量大模型,衡量好不好用的标准,就绝不仅仅局限于其性能和规模了。
1/27/2025 12:41:00 PM
新智元
在2025年初,浅浅聊一聊世界模型 World Models
Update 1月10日:感谢评论区补充world model在RL中的定义! 感觉在RL中的定义,world model是针对一个具体子任务的模型,最近上述公司提到的World Model的尺度似乎更大、更加通用,更多从:Language Generation Model (ChatGPT)-Image Generation Model(StableDiffusion)-Video/3D Geneartion Model (二者各有侧重因此平级)-World Generation Model(同时具备时序和空间序建模)这么一个趋势。 当然这个World似乎想要包容一切,于是也并不清晰到底是什么样的表征:是否是video sequence?
1/27/2025 9:37:33 AM
原野寻踪
鄂维南李航领衔造高级论文搜索Agent,召回率和精准性超谷歌学术等,磕盐党狂喜
中科院院士鄂维南、字节AI实验室总监李航领衔,推出高级论文搜索Agent。 名为PaSa,两个Agent分别执行多轮搜索和判断论文是否满足查询要求的任务,模仿人类复杂学术搜索行为。 现在就有Demo可玩。
1/27/2025 9:00:00 AM
量子位
解密FedDAT:首个多模态异构联邦学习高效微调框架,突破数据异构与通信瓶颈!
FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning一、 一眼概览FedDAT提出了一种创新的双适配器教师框架(Dual-Adapter Teacher, DAT),结合参数高效微调和互知识蒸馏,解决了多模态异构联邦学习(FL)中的数据异构性问题,并在多个视觉-语言任务基准上取得了最优表现。 二、核心问题如何在多模态联邦学习环境中,在数据异构性和通信预算限制下,实现基础模型的高效分布式微调,以提升视觉-语言任务的性能,是本研究的核心问题。 三、 技术亮点1.
1/26/2025 9:07:46 AM
萍哥学AI
DeepSeek-R1持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看
“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪——刚刚,DeepSeek-R1跻身大模型竞技榜前三。 以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。 在复杂提示词/风格控制榜单上,R1位列第一。
1/26/2025 8:00:00 AM
量子位
颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级
最近,非营利研究机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。 OLMo 2系列包含7B和13B两个型号,相比如Llama 3.1和Qwen 2.5等开源模型达到了同等甚至更优的性能,同时FLOPS计算量更少,在性能和计算效率之间取得了极佳的平衡,为开源LLM开辟了新的可能性。 不同大小开源模型的性能对比,OLMo 2的表现优于同参数规模模型在多个下游任务上,OLMo 2展现出了强大的泛化能力和适应能力。
1/24/2025 3:40:00 PM
新智元
史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1
史上最难的大模型测试集来了! 包括o1在内,没有任何一个模型得分超过10%。 题目来自500多家机构的1000多名学者,最终入围的题目有3000多道,全部都是研究生及以上难度。
1/24/2025 3:03:27 PM
量子位
阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节
本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接: 模型训练中的关键问题混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。 基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。
1/24/2025 2:19:21 PM
机器之心
中国AI太强,Meta工程师吓疯?自曝疯狂熬夜复制DeepSeek,天价高管心虚了
今天,Meta员工在匿名社区TeamBlind上的一个帖子,在业内被传疯了。 DeepSeek,真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型,而且与o1不同, R1还是开源模型「Open Source Model」,比OpenAI还Open!更有人曝料,DeepSeek还只是个「副项目」,主业根本不是搞大模型!
1/24/2025 1:20:00 PM
新智元
小模型也能玩转RAG!性能仅降1%,存储省75%,边缘设备轻松跑
检索增强生成(RAG)虽好,但一直面临着资源消耗大、部署复杂等技术壁垒。 近日,香港大学黄超教授团队提出MiniRAG,成功将RAG技术的应用门槛降至1.5B参数规模,实现了算力需求的大幅降低。 这一突破性成果不仅为边缘计算设备注入新活力,更开启了基于小模型轻量级RAG的探索。
1/23/2025 5:00:00 PM
量子位
20K合成数据就能让大模型能力飙升!还能实现模型自我迭代,上海AI Lab数据合成新范式
仅使用20K合成数据,就能让Qwen模型能力飙升——模型主观对话能力显著提升,还能实现模型自我迭代。 最近,来自上海AI Lab的研究团队针对合成数据技术展开研究,提出了SFT数据合成引擎Condor,通过世界知识树(World Knowledge Tree)和自我反思(Self-Reflection)机制,探索合成海量高质量SFT数据的方案。 结果,他们还意外发现,在增大合成数据量的情况下,模型性能持续提升。
1/23/2025 9:15:00 AM
量子位
Anthropic CEO惊人预警:27年AI超越人类!Claude今年更新全剧透
失踪人口终于回归了! 在互联网消失一段时间后,Anthropic首席执行官Dario Amodei一上来就接受了WSJ、CNBC两家采访,连曝AI大瓜。 他坚定地认为,「2027年之前,AI完全可以超越人类智能!
1/23/2025 9:00:00 AM
新智元
仅用25%数据实现性能超越!MapGS:解决特定传感器配置的在线建图模型训练问题
本文经3D视觉之心公众号授权转载,转载请联系出处。 避免传感器配置差异近年来,多模态传感器融合的新进展推动了自动驾驶应用中感知方法的发展。 这些进展涵盖了 3D 目标检测、在线地图生成与推理、占用预测,以及端到端框架的形式。
1/22/2025 10:40:00 AM
3D视觉之心
资讯热榜
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型!
刚刚,ChatGPT终于可以走遍整个互联网了!OpenAI深夜炸街:原生ChatGPT集成、即时理解、主动执行,浏览器赛道鲨疯了
告别抽卡!Vidu Q2多图参考生视频功能重磅上线
最强OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大顶尖开源OCR模型横评!继DS后又杀出匹黑马!
OpenAI首款ChatGPT浏览器发布!现在就能免费下载使用
OpenAI、Oracle 再加码 AI 基建:150亿美元 Lighthouse 园区启动建设
通义千问再放大招!Qwen3-VL 家族新增 2B 与 32B 模型,开源矩阵全面升级
保姆级教程!教你用Coze工作流2分钟生成优质文章
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
芯片
AI for Science
腾讯
Stable Diffusion
Agent
苹果
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
AI视频
生成
RAG
大语言模型
Sora
百度
具身智能
工具
GPU
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
视频生成
场景
深度学习
DeepMind
架构
生成式AI
视觉
编程
预测
Transformer
AI模型
伟达
特斯拉
Copilot