理论
刚刚,OpenAI图像生成模型API发布,Token计价,一张图花掉1.4元
上个月,OpenAI 在 ChatGPT 中引入了图像生成功能,广受欢迎:仅在第一周,全球就有超过 1.3 亿用户创建了超过 7 亿张图片。 就在刚刚,OpenAI 又宣布了一个好消息:他们正式在 API 中推出驱动 ChatGPT 多模态体验的原生模型 ——gpt-image-1,让开发者和企业能够轻松将高质量、专业级的图像生成功能直接集成到自己的工具和平台中。 这也意味着,从今天开始,全世界的开发人员都可以使用 ChatGPT 强大的图像生成功能了。
4/24/2025 9:38:56 AM
机器之心
扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"完整重建交互式3D场景|CVPR'25
你是否设想过,仅凭几张随手拍摄的照片,就能重建出一个完整、细节丰富且可自由交互的3D场景? 在传统方法中,这几乎是不可能完成的任务,稀少的拍摄视角往往导致模型无法还原被遮挡的区域,生成的场景要么残缺不全,要么细节模糊。 更令人困扰的是,传统的重建算法无法解耦场景中的独立物体,重建结果无法交互,严重限制了在具身智能、元宇宙和影视游戏等领域的应用前景。
4/24/2025 9:38:00 AM
可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题
GPT-4o带火的漫画风角色生成,现在有了开源版啦! 腾讯混元携手InstantX团队合作打破次元壁,开源定制化角色生成插件——InstantCharacter。 以往针对角色驱动的图像生成方法,都存在一定的缺陷。
4/24/2025 9:35:00 AM
告别“AI失忆症”!新型SD-LoRA算法实现终身学习|ICLR 2025
彻底摆脱传统方法对旧数据存储的依赖! 哈佛团队联手香港城大、西安交大最新发布的SD-LoRA技术,通过固定已学习任务的方向参数,仅调整幅度权重,完全避免了历史数据的存储需求。 能够在减少50%以上参数存储的同时保持最高准确率,并且在不增加推理开销的前提下显著缓解了灾难性遗忘问题。
4/24/2025 9:30:00 AM
量子位
挤爆字节服务器的Agent到底啥水平?一手实测来了
“字节版Manus”有多能打? 量子位实测在此。 △扣子智能体生成的活动介绍网页我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。
4/24/2025 9:27:00 AM
量子位
大模型数据味蕾论
AI大模型就像一位厨师,预训练数据就是这位厨师的味蕾。 没有经过训练的味蕾,再好的食材也无法变成美味佳肴。 没有优质的预训练数据,再强大的计算资源也打造不出卓越大模型。
4/24/2025 9:26:13 AM
大数据AI智能圈
ICLR 2025 Oral | 训练LLM,不只是多喂数据,PDS框架给出最优控制理论选择
本文第一作者顾煜贤()为清华大学计算机系四年级直博生,师从黄民烈教授,研究方向为语言模型的高效训练与推理方法。 他曾在 ACL,EMNLP,ICLR 等会议和期刊上发表近 20 篇论文,多次进行口头报告,Google Scholar 引用数 2600 ,曾获 2025 年苹果学者奖学金。 本篇论文为他在微软亚洲研究院实习期间所完成。
4/24/2025 9:25:00 AM
机器之心
特斯拉 Optimus 人形机器人试生产线亮相,马斯克称年底数千台将入驻工厂
4 月 24 日消息,在特斯拉 2025 年第一季度更新报告中,公司首次向外界展示了 Optimus 人形机器人试生产线。 特斯拉表示,Optimus 的生产时间表保持不变,公司正朝着尽快生产出能够完成有用工作的首批人形机器人的目标迈进。 据IT之家了解,特斯拉的 Optimus 试生产线位于弗里蒙特工厂,这里是特斯拉众多项目的起点。
4/24/2025 9:21:15 AM
远洋
一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真
如果不提前告诉你,你可能很难相信这段视频里的语音全部是 AI 生成的:这些声音来自 Dia-1.6B——一个刚刚在 𝕏、GitHub 等平台上走红的开源语音模型。 它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。 由于效果过于逼真,它在 GitHub 上线后不到 24 小时就收获了超过 3.4k star,现在的 star 数更是已经达到了 5.4k。
4/24/2025 9:21:00 AM
机器之心
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器
ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。 每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。 今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。
4/24/2025 9:16:00 AM
新智元
大学文凭成废纸?AI暴击美国00后!他哥大退学成千万富翁,我却还要还学贷
摊牌了,不装了,美国的Z时代已经对上大学彻底不耐烦了。 现在,他们喊出这样的宣言:有了ChatGPT,大学文凭已经彻底成了一张废纸! 纯粹就是浪费时间和金钱。
4/24/2025 9:14:00 AM
新智元
礼貌寒暄推高AI问答成本!OpenAI每年为此多花数千万美元?
近日,美国科技公司OpenAI的首席执行官萨姆·奥尔特曼在社交平台上透露了一个令人意外的现象:用户在与ChatGPT互动时频繁使用“请”“谢谢”等礼貌用语,这一行为竟然导致公司每年需额外承担数千万美元的运营成本。 这一消息引发了广泛讨论,人们不禁好奇,为何简单的礼貌寒暄会带来如此高昂的成本? 礼貌寒暄背后的成本根据《今日美国》及美国《石英》杂志的报道,当用户在ChatGPT的用户界面说“谢谢”时,大模型会按照算法回复“不客气”。
4/24/2025 9:11:09 AM
小菲
理解 RAG 第三部分:融合检索与重新排序
我们之前介绍了什么是 RAG、它在大型语言模型 (LLM) 中的重要性,以及 RAG 的经典检索器、生成器系统是什么样的,本系列的第三篇文章探讨了一种构建 RAG 系统的升级方法:融合检索。 在深入探讨之前,值得简要回顾一下我们在本系列第二部分中探讨过的基本 RAG 方案。 融合检索解析融合检索方法涉及在检索增强生成(RAG)系统的检索阶段中融合或聚合多个信息流。
4/24/2025 9:04:42 AM
晓晓
几行代码,一窥上帝造物!帝国理工开源CAX,引爆人工生命新纪元
人工生命研究的新纪元! 「人工生命」(artificial life,或简写为ALife),旨在模拟生命的行为、特性和演化过程,理解生命的本质,涉及涌现现象、自组织系统或形态发生机制。 人工生命(ALife)的研究中,蕴含着能够推动和加速AI进步的重要启发和灵感。
4/24/2025 9:03:00 AM
新智元
从入门到精通:如何在React中构建人工智能驱动的梗图生成器
译者 | 李睿审校 | 重楼为什么要构建人工智能梗图生成器? 梗图(Meme)堪称互联网时代的“全民语言”。 无论是想调侃朋友,还是想表达编程让人崩溃的无奈,梗图总能精准地表达其意境。
4/24/2025 8:39:17 AM
李睿
OpenAI 新模型 GPT-4.1 可靠性遭质疑:独立测试显示其对齐性下降
IT之家 4 月 24 日消息,本月早些时候 OpenAI 推出了 GPT-4.1 人工智能模型,并声称该模型在遵循指令方面表现出色。 然而,多项独立测试的结果却显示,与 OpenAI 以往发布的模型相比,GPT-4.1 的对齐性(即可靠性)似乎有所下降。 据IT之家了解,通常情况下,OpenAI 在推出新模型时,会发布一份详细的技术报告,其中包含第一方和第三方的安全评估结果。
4/24/2025 8:29:59 AM
远洋
全网首曝!用 C# 调用本地大模型:Llama3 中文对话实战
在人工智能蓬勃发展的当下,大模型技术已成为众多领域的核心驱动力。 Llama3作为Meta开发并公开发布的最新大型语言模型(LLMs),凭借其卓越的性能和丰富的功能,备受开发者关注。 以往,调用大模型往往依赖云端服务,面临着网络延迟、数据隐私等诸多问题。
4/24/2025 8:20:00 AM
后端Q
Seedream 3.0 文生图模型技术报告发布
字节跳动 Seed 团队正式发布 Seedream 3.0 技术报告。 Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,对比 Seedream 2.0,这一版本的整体性能表现有较大提升,尤其在分辨率、生图结构准确性、数量准确性、多物体属性关系、小字生成与排版、美感效果、真实度等方面有所突破。 具体亮点如下:原生 2K 直出,适配多比例场景:无需后处理可直接输出 2K 分辨率图像,从手机端到巨幅海报场景的视觉需求均可满足;3 秒出图,大幅提升创作效率:面向海报设计、视觉创意等需求,可实现 3 秒左右快速生成高品质图像,实现“所想即所得”的实时创意交互;小字更准,文本排版效果增强:优化小字体高保真生成、多行文本语义排版等业界难题,让 AI 具备商业级图文设计能力;美感&结构提升,生成富有感染力:指令遵循进一步增强,人体和物体结构崩坏改善,且进一步弱化了出图的 AI 感,实现从“看得清”到“有感染力”的审美提升。
4/24/2025 6:02:45 AM
豆包大模型团队
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
DeepMind
特斯拉