资讯列表
X-CLR:通过新型对比损失函数提升图像识别能力
译者 | 刘汪洋审校 | 重楼AI 驱动的图像识别技术正在改变各行各业,从医疗健康和安保,到自动驾驶汽车和零售业。 这些系统能分析海量视觉数据,以惊人的准确度识别模式和物体。 然而,传统图像识别模型面临着不少挑战:它们需要消耗大量计算资源,缺乏良好的扩展性,而且通常难以高效处理大型数据集。
3/12/2025 10:10:21 AM
刘汪洋
快慢双系统!清华&博世最新Chameleon:无需训练即可解决复杂道路拓扑(ICRA'25)
在自动驾驶技术中,车道拓扑提取是实现无地图导航的核心任务之一。 它要求系统不仅能检测出车道和交通元素(如交通灯、标志),还要理解它们之间的复杂关系。 例如,判断车辆是否可以左转进入某条车道,就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。
3/12/2025 10:07:06 AM
自动驾驶之心
OpenAI深夜发布全新Agent工具:两大杀器登场,感觉可以手搓Manus了
可以自己动手手搓Manus了? 刚刚OpenAI举行了一个19分钟的线上发布会,推出全新Agent工具,OpenAI直接祭出自研Agent SDK和Responses API两大杀器! 旨在彻底简化agent开发流程,让开发者和企业都能轻松构建实用又可靠的智能体!
3/12/2025 10:00:44 AM
AI寒武纪
Manus与阿里云通义千问达成合作,共推国产AI智能体产品
人工智能Agent产品新秀Manus与阿里云旗下大语言模型通义千问近日达成战略合作。 根据Manus在其视频号"Manus AI"发布的消息,双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能。 目前两家技术团队已开始紧密协作,致力于为中国用户打造更具创造力的通用智能体产品。
3/12/2025 10:00:41 AM
AI在线
重生之我在小红书给AI当老板 元宝动不动崩溃,DeepSeek天天摸鱼
这年头,谁还没个AI打工仔?但你见过直接在群聊里遥控AI军团的赛博老板吗?最近,小红书上就火爆了这样一股清奇画风——网友们纷纷化身AI公司的“霸道总裁”,在群聊里对一众AI模型指点江山,发号施令,上演了一出啼笑皆非的AI职场大戏。 始作俑者是小红书网友Komorebi,她的一条也是当上AI的领导了的图文笔记,瞬间点燃了网友们的玩梗热情。 只见她煞有介事地建了一个工作群,自己当起了人类CEO,一本正经地指挥群里的AI员工们打卡签到。
3/12/2025 9:53:00 AM
AI在线
揭示显式CoT训练机制:思维链如何增强推理泛化能力
基于逐步生成解决方案的大语言模型(LLMs)训练范式在人工智能领域获得了广泛关注,并已发展成为行业内的主流方法之一。 例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调(Reinforcement Fine-Tuning,RFT),进一步推动了 AI 定制化的发展[1]。 RFT/ReFT[2] 的一个关键组成部分是使用思维链(Chain-of-Thought,CoT)注释[3] 进行监督微调(Supervised Fine-Tuning,SFT)。
3/12/2025 9:48:19 AM
机器之心
18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集
目前的视频编辑算法主要分为两种:一种是利用 DDIM-Inversion 完成视频编辑,另一种是利用训练好的编辑模型。 然而,前者在视频的一致性和文本对齐方面存在较大缺陷;后者由于缺乏高质量的视频编辑对,难以获得理想的编辑模型。 为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。
3/12/2025 9:40:28 AM
机器之心
告别平面!MIDI:可提取图片元素生成360度3D场景
还在对着二维照片里的美好场景望眼欲穿?梦想着能身临其境地漫步在那些迷人画面之中?现在,这个愿望有望成为现实!来自CVPR2025的重磅研究——MIDI(Multi-Instance Diffusion for Single Image to3D Scene Generation,多实例扩散单图到3D场景生成)横空出世,它就像一位技艺高超的魔法师,仅凭一张普通的2D图片,就能为你构建出一个栩栩如生的360度3D场景。 一图胜千言?现在还能“变”出整个世界!想象一下,你拍摄了一张阳光洒落的咖啡馆一角,照片里有精致的桌椅、香气四溢的咖啡杯,以及窗外婆娑的树影。 过去,这仅仅是一张静态的平面图像。
3/12/2025 9:35:00 AM
AI在线
谷歌持有Anthropic14%股份,投资已达30亿美元
根据《纽约时报》获取的法律文件显示,谷歌目前持有人工智能初创公司Anthropic14%的股份,接近其允许持有的15%上限。 值得注意的是,尽管投资规模庞大,谷歌在Anthropic并不享有投票权、董事会席位或董事会观察员权。 据报道,谷歌迄今已向Anthropic投入了总计30亿美元的资金,并计划在2025年9月再追加7.5亿美元的投资。
3/12/2025 9:30:00 AM
AI在线
全国第二例判决 AI 版权案:法院确认作者享有著作权
AI 生成内容的知识产权问题带来了不少争议,而江苏省苏州市常熟市人民法院于3月7日宣判了一起备受瞩目的著作权纠纷案。 这起案件被认为是江苏省的首例、全国第二例涉及 AI 生成内容的著作权案。 案件的起因是林某使用 Midjourney 软件生成的图片作品引发的版权争议。
3/12/2025 9:25:00 AM
AI在线
Meta测试内部AI训练芯片,寻求减少对英伟达依赖
据路透社报道,Meta正在测试一种专为人工智能训练设计的内部芯片,这是该公司战略的重要组成部分,旨在降低对英伟达等硬件制造商的依赖。 这些芯片是Meta与台湾半导体制造巨头台积电(TSMC)合作生产的,专门用于处理人工智能特定的工作负载。 目前,Meta正在进行"小规模部署"测试,如果测试结果符合预期,公司计划扩大生产规模。
3/12/2025 9:11:00 AM
AI在线
OpenAI推出新工具帮助开发者构建AI代理
OpenAI周二发布了新的响应API(Responses API),旨在帮助开发人员和企业使用该公司的模型和框架构建能独立完成任务的AI代理。 这一工具包将有效取代OpenAI的助手API,后者计划在2026年上半年停用。 响应API允许企业开发自定义AI代理,这些代理可以执行网络搜索、扫描公司文件和浏览网站,功能类似于OpenAI的Operator产品。
3/12/2025 9:09:00 AM
AI在线
DeepSeek官方回应:R2将在3 月17日发布传闻为虚假
日前有媒体报道称人工智能公司 DeepSeek 可能将在3月17日发布其下一代 R2模型的消息在网络上引发热议。 然而,DeepSeek 官方在用户群中对这一传闻进行了澄清,表示 “R2发布为假消息”。 据了解,DeepSeek 官方通过其企业咨询账号回应了这一虚假消息。
3/12/2025 8:57:00 AM
AI在线
李飞飞全新「保姆」人形机器人,倒垃圾刷马桶家务全包!遥操只需Switch手柄
对人类来说轻而易举的事,对机器人来说很难。 机器人能做家庭管家,照顾好一家人吗? 要做「家庭管家」,机器人真正需要什么技能?
3/12/2025 8:54:46 AM
新智元
百度AI开源表格识别模型PP-TableMagic
3月11日,百度AI宣布开源新一代表格识别解决方案PP-TableMagic,为表格结构化信息提取领域带来重大突破。 PP-TableMagic旨在解决传统表格识别技术在复杂场景下的局限性,通过创新的多模型组网架构,实现了高精度的端到端表格识别,并支持全场景高定制化的模型微调。 在当今数字化时代,大量重要表格数据仍以非结构化形式存在,如扫描文档中的统计表图片和PDF文件中的金融财报数据。
3/12/2025 8:27:00 AM
AI在线
阿里通义宣布开源R1-Omni模型 可提升多模态情感识别能力
3月11日,通义实验室团队宣布开源R1-Omni模型,为全模态模型的发展带来了新的突破。 该模型结合了强化学习与可验证奖励(RLVR)方法,专注于提升多模态情感识别任务中的推理能力和泛化性能。 R1-Omni的训练分为两个阶段。
3/12/2025 8:21:00 AM
AI在线
被Manus惊到了?OpenAI深夜发布Agent开发三剑客!开源一个新的SDK,现场手搓三个Agent!还抖了一个内部的料
出品 | 51CTO技术栈(微信号:blog51cto)“2025年将是Agent之年,这一年,ChatGPT和我们的开发工具将从仅仅回答问题,转变为真正为你在现实世界中做事。 ”上周Manus通用智能体的发布之后带火了Claude的MCP框架之后,OpenAI终于坐不住了,今天凌晨一点通过直播的形式,一口气把自己内部工程人员在用的Agent开发工具发布了出来。 整体直播不长,只有20分钟,但足以让外界从OpenAI的视角来见识一番以全球最先进的基座模型来做出来的Agent的效果。
3/12/2025 7:56:29 AM
OpenAI 发布新工具,推动 AI 智能体从“回答问题”跨越到“执行任务”
IT之家 3 月 12 日消息,OpenAI 公司昨日(3 月 11 日)发布博文,面向开发者推出了一系列新的工具,帮助其创建 AI 智能体过程中,简化开发流程和增强智能体技能和功能。 此次发布标志着 OpenAI 的 API 平台向更实用、更贴近现实世界的应用迈出了重要一步。 IT之家简要介绍下本次发布的新开发者工具:Responses API:该 API 结合了聊天功能与集成工具(如网页搜索和文件搜索),基于 ChatGPT 搜索模型,提供实时信息并附带引用来源,为开发者提供了更灵活的开发基础。
3/12/2025 7:52:59 AM
故渊