AI在线 AI在线

理论

X-CLR:通过新型对比损失函数提升图像识别能力

译者 | 刘汪洋审校 | 重楼AI 驱动的图像识别技术正在改变各行各业,从医疗健康和安保,到自动驾驶汽车和零售业。 这些系统能分析海量视觉数据,以惊人的准确度识别模式和物体。 然而,传统图像识别模型面临着不少挑战:它们需要消耗大量计算资源,缺乏良好的扩展性,而且通常难以高效处理大型数据集。
3/12/2025 10:10:21 AM
刘汪洋

快慢双系统!清华&博世最新Chameleon:无需训练即可解决复杂道路拓扑(ICRA'25)

在自动驾驶技术中,车道拓扑提取是实现无地图导航的核心任务之一。 它要求系统不仅能检测出车道和交通元素(如交通灯、标志),还要理解它们之间的复杂关系。 例如,判断车辆是否可以左转进入某条车道,就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。
3/12/2025 10:07:06 AM
自动驾驶之心

OpenAI深夜发布全新Agent工具:两大杀器登场,感觉可以手搓Manus了

可以自己动手手搓Manus了? 刚刚OpenAI举行了一个19分钟的线上发布会,推出全新Agent工具,OpenAI直接祭出自研Agent SDK和Responses API两大杀器! 旨在彻底简化agent开发流程,让开发者和企业都能轻松构建实用又可靠的智能体!
3/12/2025 10:00:44 AM
AI寒武纪

揭示显式CoT训练机制:思维链如何增强推理泛化能力

基于逐步生成解决方案的大语言模型(LLMs)训练范式在人工智能领域获得了广泛关注,并已发展成为行业内的主流方法之一。 例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调(Reinforcement Fine-Tuning,RFT),进一步推动了 AI 定制化的发展[1]。 RFT/ReFT[2] 的一个关键组成部分是使用思维链(Chain-of-Thought,CoT)注释[3] 进行监督微调(Supervised Fine-Tuning,SFT)。
3/12/2025 9:48:19 AM
机器之心

18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

目前的视频编辑算法主要分为两种:一种是利用 DDIM-Inversion 完成视频编辑,另一种是利用训练好的编辑模型。 然而,前者在视频的一致性和文本对齐方面存在较大缺陷;后者由于缺乏高质量的视频编辑对,难以获得理想的编辑模型。 为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。
3/12/2025 9:40:28 AM
机器之心

李飞飞全新「保姆」人形机器人,倒垃圾刷马桶家务全包!遥操只需Switch手柄

对人类来说轻而易举的事,对机器人来说很难。 机器人能做家庭管家,照顾好一家人吗? 要做「家庭管家」,机器人真正需要什么技能?
3/12/2025 8:54:46 AM
新智元

被Manus惊到了?OpenAI深夜发布Agent开发三剑客!开源一个新的SDK,现场手搓三个Agent!还抖了一个内部的料

出品 | 51CTO技术栈(微信号:blog51cto)“2025年将是Agent之年,这一年,ChatGPT和我们的开发工具将从仅仅回答问题,转变为真正为你在现实世界中做事。 ”上周Manus通用智能体的发布之后带火了Claude的MCP框架之后,OpenAI终于坐不住了,今天凌晨一点通过直播的形式,一口气把自己内部工程人员在用的Agent开发工具发布了出来。 整体直播不长,只有20分钟,但足以让外界从OpenAI的视角来见识一番以全球最先进的基座模型来做出来的Agent的效果。
3/12/2025 7:56:29 AM

OpenAI 发布新工具,推动 AI 智能体从“回答问题”跨越到“执行任务”

IT之家 3 月 12 日消息,OpenAI 公司昨日(3 月 11 日)发布博文,面向开发者推出了一系列新的工具,帮助其创建 AI 智能体过程中,简化开发流程和增强智能体技能和功能。 此次发布标志着 OpenAI 的 API 平台向更实用、更贴近现实世界的应用迈出了重要一步。 IT之家简要介绍下本次发布的新开发者工具:Responses API:该 API 结合了聊天功能与集成工具(如网页搜索和文件搜索),基于 ChatGPT 搜索模型,提供实时信息并附带引用来源,为开发者提供了更灵活的开发基础。
3/12/2025 7:52:59 AM
故渊

浅谈 AI 对数据库生态带来哪些影响

近期,AI(主要是大模型)大火,很多人也都非常关注。 自己在尝试使用同时,也在思考AI会对数据库有哪些影响? 这些影响可能会是全方面的,包括对人、公司、行业等等。
3/12/2025 7:35:59 AM
韩锋

为什么说JSON不一定是LLM结构化输出的最佳选择?

当要求大语言模型(LLM)输出结构化数据时,所采用的格式会对结果产生比较大的影响。 本文对比了六种不同的格式,评估考察了它们的处理速度、tokens 消耗以及各自的限制。 1.简要说明JSON 虽然是多数人的首选,但它对 tokens 的消耗极大。
3/12/2025 6:55:00 AM
BaiHai IDP

Finer-CAM:让AI像‘找不同’一样精准捕捉细粒度特征!

一眼概览Finer-CAM 是一种改进的类激活映射(CAM)方法,能够精准定位区分视觉上相似类别的细粒度特征,在不增加计算复杂度的情况下,大幅提升可解释性。 核心问题传统的 CAM 方法在细粒度分类任务中往往会高亮整个目标区域,而无法有效区分相似类别之间的细微差异。 这导致模型的可解释性受限,难以识别用于决策的真正判别特征。
3/12/2025 3:00:00 AM
萍哥学AI

大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准,大模型直接全军覆没? 事情是这样的。 近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH(该工作已被CVPR 2025录用),这是一个精心策划的多图数学推理数据集,旨在全面评估MLLM(多模态大语言模型)在多视觉场景中的数学推理能力。
3/11/2025 1:49:20 PM
量子位

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种! 眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。 同样在杭州,这是在搞什么「开源双feng」(狗头保命)?
3/11/2025 1:47:10 PM
量子位

武大等发布大视觉模型最新安全综述:全面分类攻击策略、防御机制和评估方法

随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知,大型视觉语言模型(LVLMs)正以前所未有的速度重塑AI世界,这些能够理解视觉信息并生成自然语言响应的智能系统,已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。 然而,当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容,我们是否该感到担心? 近期,武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述,系统性总结了LVLMs在安全性上的挑战,并提出了全面而系统的安全分类框架。
3/11/2025 1:44:24 PM
新智元

轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错

朋友会离开你,兄弟会背叛你。 但数学不会,数学不会就是不会。 相信学不好高等数学的人,对上面这个梗深有感悟。
3/11/2025 1:42:19 PM
新智元

OpenAI最强模型惨遭剖脑,CoT写下作弊自白书!不写代码耍心机被当场抓包

就在刚刚,OpenAI博客放出了一项新的研究。 他们发现,前沿推理模型一旦有机会,就会试图钻漏洞! 这种行为,被称为奖励欺骗。
3/11/2025 1:39:08 PM
新智元

从鹦鹉学舌到灵魂对话,AI的人话革命

2030年,一位老人对家庭机器人说:“我想念年轻时在西湖划船的日子。 ”AI不仅能调出当年的老照片,还能结合实时天气与老人健康数据,规划一场安全舒适的怀旧之旅,并同步预约无人游船。 当机器对人类产生“主动关怀”,标志着AI从工具进化为“生活伴侣”。
3/11/2025 1:20:43 PM
佚名

稚晖君机器人“葡萄缝针”神技再现江湖,这次是人形的!骑自行车惊呆众人:又抽象又硬核

刚刚! 鸽了两年之后,稚晖君罕见更新视频——上线号称史上最复杂项目灵犀X2,能够像人一样灵动地骑自行车。 评论区早已经是听取哇声一片。
3/11/2025 1:19:26 PM
量子位