资讯列表
OpenAI发布gpt-image-1 API,4o图像生成能力正式开放
OpenAI正式推出gpt-image-1API,标志着其备受瞩目的4o图像生成能力向开发者开放。 据AIbase了解,这一API以其高保真图像生成、多样化视觉风格与强大的世界知识整合能力,被社区誉为“世界最强生图”工具。 发布消息迅速在AI开发者与创意社区中引发热烈反响,相关文档已通过OpenAI官网与Playground平台公开。
4/24/2025 10:01:14 AM
AI在线
SLAM3R:北大陈宝权团队等只用单目长视频就能实时重建高质量的三维稠密点云
北京大学陈宝权团队和香港大学等高校及业界机构联合推出实时三维重建系统 SLAM3R,首次实现从长视频(单目 RGB 序列)中实时且高质量地重建场景的稠密点云。 SLAM3R 使用消费级显卡(如 4090D)即可达到 20 FPS 的性能,重建点云的准确度和完整度达到当前最先进水平,同时兼顾了运行效率和重建质量。 该研究成果被 CVPR 2025 接收为 Highlight 论文,并在第四届中国三维视觉大会(China3DV 2025)上被评选为年度最佳论文,合作者为董思言博士(共同一作)、王书哲博士、尹英达博士、杨言超助理教授和樊庆楠博士,第一作者为北京大学本科生刘宇政。
4/24/2025 9:44:05 AM
机器之心
刚刚,OpenAI图像生成模型API发布,Token计价,一张图花掉1.4元
上个月,OpenAI 在 ChatGPT 中引入了图像生成功能,广受欢迎:仅在第一周,全球就有超过 1.3 亿用户创建了超过 7 亿张图片。 就在刚刚,OpenAI 又宣布了一个好消息:他们正式在 API 中推出驱动 ChatGPT 多模态体验的原生模型 ——gpt-image-1,让开发者和企业能够轻松将高质量、专业级的图像生成功能直接集成到自己的工具和平台中。 这也意味着,从今天开始,全世界的开发人员都可以使用 ChatGPT 强大的图像生成功能了。
4/24/2025 9:38:56 AM
机器之心
扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"完整重建交互式3D场景|CVPR'25
你是否设想过,仅凭几张随手拍摄的照片,就能重建出一个完整、细节丰富且可自由交互的3D场景? 在传统方法中,这几乎是不可能完成的任务,稀少的拍摄视角往往导致模型无法还原被遮挡的区域,生成的场景要么残缺不全,要么细节模糊。 更令人困扰的是,传统的重建算法无法解耦场景中的独立物体,重建结果无法交互,严重限制了在具身智能、元宇宙和影视游戏等领域的应用前景。
4/24/2025 9:38:00 AM
可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题
GPT-4o带火的漫画风角色生成,现在有了开源版啦! 腾讯混元携手InstantX团队合作打破次元壁,开源定制化角色生成插件——InstantCharacter。 以往针对角色驱动的图像生成方法,都存在一定的缺陷。
4/24/2025 9:35:00 AM
告别“AI失忆症”!新型SD-LoRA算法实现终身学习|ICLR 2025
彻底摆脱传统方法对旧数据存储的依赖! 哈佛团队联手香港城大、西安交大最新发布的SD-LoRA技术,通过固定已学习任务的方向参数,仅调整幅度权重,完全避免了历史数据的存储需求。 能够在减少50%以上参数存储的同时保持最高准确率,并且在不增加推理开销的前提下显著缓解了灾难性遗忘问题。
4/24/2025 9:30:00 AM
量子位
挤爆字节服务器的Agent到底啥水平?一手实测来了
“字节版Manus”有多能打? 量子位实测在此。 △扣子智能体生成的活动介绍网页我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。
4/24/2025 9:27:00 AM
量子位
大模型数据味蕾论
AI大模型就像一位厨师,预训练数据就是这位厨师的味蕾。 没有经过训练的味蕾,再好的食材也无法变成美味佳肴。 没有优质的预训练数据,再强大的计算资源也打造不出卓越大模型。
4/24/2025 9:26:13 AM
大数据AI智能圈
ICLR 2025 Oral | 训练LLM,不只是多喂数据,PDS框架给出最优控制理论选择
本文第一作者顾煜贤()为清华大学计算机系四年级直博生,师从黄民烈教授,研究方向为语言模型的高效训练与推理方法。 他曾在 ACL,EMNLP,ICLR 等会议和期刊上发表近 20 篇论文,多次进行口头报告,Google Scholar 引用数 2600 ,曾获 2025 年苹果学者奖学金。 本篇论文为他在微软亚洲研究院实习期间所完成。
4/24/2025 9:25:00 AM
机器之心
特斯拉 Optimus 人形机器人试生产线亮相,马斯克称年底数千台将入驻工厂
4 月 24 日消息,在特斯拉 2025 年第一季度更新报告中,公司首次向外界展示了 Optimus 人形机器人试生产线。 特斯拉表示,Optimus 的生产时间表保持不变,公司正朝着尽快生产出能够完成有用工作的首批人形机器人的目标迈进。 据IT之家了解,特斯拉的 Optimus 试生产线位于弗里蒙特工厂,这里是特斯拉众多项目的起点。
4/24/2025 9:21:15 AM
远洋
一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真
如果不提前告诉你,你可能很难相信这段视频里的语音全部是 AI 生成的:这些声音来自 Dia-1.6B——一个刚刚在 𝕏、GitHub 等平台上走红的开源语音模型。 它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。 由于效果过于逼真,它在 GitHub 上线后不到 24 小时就收获了超过 3.4k star,现在的 star 数更是已经达到了 5.4k。
4/24/2025 9:21:00 AM
机器之心
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器
ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。 每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。 今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。
4/24/2025 9:16:00 AM
新智元
大学文凭成废纸?AI暴击美国00后!他哥大退学成千万富翁,我却还要还学贷
摊牌了,不装了,美国的Z时代已经对上大学彻底不耐烦了。 现在,他们喊出这样的宣言:有了ChatGPT,大学文凭已经彻底成了一张废纸! 纯粹就是浪费时间和金钱。
4/24/2025 9:14:00 AM
新智元
礼貌寒暄推高AI问答成本!OpenAI每年为此多花数千万美元?
近日,美国科技公司OpenAI的首席执行官萨姆·奥尔特曼在社交平台上透露了一个令人意外的现象:用户在与ChatGPT互动时频繁使用“请”“谢谢”等礼貌用语,这一行为竟然导致公司每年需额外承担数千万美元的运营成本。 这一消息引发了广泛讨论,人们不禁好奇,为何简单的礼貌寒暄会带来如此高昂的成本? 礼貌寒暄背后的成本根据《今日美国》及美国《石英》杂志的报道,当用户在ChatGPT的用户界面说“谢谢”时,大模型会按照算法回复“不客气”。
4/24/2025 9:11:09 AM
小菲
理解 RAG 第三部分:融合检索与重新排序
我们之前介绍了什么是 RAG、它在大型语言模型 (LLM) 中的重要性,以及 RAG 的经典检索器、生成器系统是什么样的,本系列的第三篇文章探讨了一种构建 RAG 系统的升级方法:融合检索。 在深入探讨之前,值得简要回顾一下我们在本系列第二部分中探讨过的基本 RAG 方案。 融合检索解析融合检索方法涉及在检索增强生成(RAG)系统的检索阶段中融合或聚合多个信息流。
4/24/2025 9:04:42 AM
晓晓
几行代码,一窥上帝造物!帝国理工开源CAX,引爆人工生命新纪元
人工生命研究的新纪元! 「人工生命」(artificial life,或简写为ALife),旨在模拟生命的行为、特性和演化过程,理解生命的本质,涉及涌现现象、自组织系统或形态发生机制。 人工生命(ALife)的研究中,蕴含着能够推动和加速AI进步的重要启发和灵感。
4/24/2025 9:03:00 AM
新智元
OpenAI 新推出的 GPT-4.1 模型面临对齐性下降的挑战
近期,OpenAI 发布了其最新的人工智能模型 GPT-4.1,声称该模型在执行指令方面表现优秀。 然而,多项独立测试却显示,GPT-4.1在对齐性,即可靠性方面,相较于前代模型 GPT-4o 有所下降。 通常,OpenAI 会在发布新模型时附上详细的技术报告,包含安全评估的结果。
4/24/2025 9:00:53 AM
AI在线
OpenAI推ChatGPT新图像生成功能API:开发者可轻松集成 AI 绘图功能
OpenAI 在近日宣布,已将其最新的图像生成功能通过 API 开放给开发者,使其能够将这一先进的技术集成到各种应用和服务中。 这一消息无疑为开发者们提供了一个新的机遇,特别是在图像处理和创作领域。 新推出的图像生成模型名为 “gpt-image-1”,其背后支持了 ChatGPT 的图像生成技术。
4/24/2025 9:00:53 AM
AI在线