图像生成
像素蛋糕 “方糖大模型” 成功获批,成为国内影像行业首个备案图像大模型
近日,像素蛋糕公司自主研发的 “方糖大模型” 正式通过国家网信办的备案,成为国内影像行业首个获得官方资质的应用级图像大模型。 这一成就不仅标志着方糖大模型在技术上的突破,也显示了其在安全性和规范性方面达到了国家标准。 方糖大模型的成功备案是人工智能领域的重要里程碑,特别是在图像生成技术日益发展的背景下。
5/29/2025 11:01:24 AM
AI在线
CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化
本文由中国科学院计算技术研究所研究团队完成,第一作者为硕士生杨晗,通讯作者为副研究员安竹林,助理研究员杨传广。 论文标题:Multi-party Collaborative Attention Control for Image Customization论文地址::,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。 从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。
5/12/2025 2:16:52 PM
港大&Adobe联合提出图像生成模型PixelFlow,可直接在原始像素空间中运行,无需VAE即可进行端到端训练
香港大学和Adobe联合提出了一种直接在原始像素空间中运行的图像生成模型PixelFlow,这种方法简化了图像生成过程,无需预先训练的变分自编码器 (VAE),并使整个模型能够端到端训练。 通过高效的级联流建模,PixelFlow 在像素空间中实现了可承受的计算成本。 它在 256x256 ImageNet 类条件图像生成基准上实现了 1.98 的 FID。
4/29/2025 9:21:19 AM
AIGC Studio
GPT-4o图像生成能力集成GPTs,开启个性化图像机器人新篇章
OpenAI宣布GPT-4o的图像生成能力正式集成到GPTs(自定义GPT)平台,为开发者与创作者提供了构建个性化图像生成机器人的强大工具。 据AIbase了解,这一更新允许用户通过GPTs打造专属图像生成应用,如海报设计机器人或特定艺术风格生成器,极大地提升了创作灵活性与共享性。 社交平台上的热烈讨论凸显了其广泛影响力,相关功能已向ChatGPT Plus、Pro及Team用户开放。
4/27/2025 5:00:38 PM
AI在线
GPT-4o图像生成功能现已集成至自定义GPTs
2025年4月26日 AIbase报道:OpenAI近日宣布,其旗舰多模态模型GPT-4o的图像生成功能现已正式集成至ChatGPT的自定义GPTs功能中。 这一更新标志着用户创建的定制化AI助手能够直接生成和编辑图像,为内容创作、设计和教育等领域带来更多可能性。 无缝集成的图像生成体验GPT-4o的图像生成功能此前已于2025年3月25日起在ChatGPT和Sora平台向免费、Plus、Pro和Team用户逐步开放。
4/27/2025 9:00:21 AM
AI在线
UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!
首次在统一框架内实现理解与生成的“双优表现”,打破了多模态统一建模的僵局! 复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。 UniToken通过融合连续和离散视觉表征,有效缓解了以往方法中“任务干扰”和“表示割裂”的问题,为多模态统一建模提供了新的范式。
4/25/2025 9:10:00 AM
三星研究院推出新型自回归 Transformer,助力高分辨率图像生成
在图像生成领域,技术的进步不断推动着虚拟现实等应用的发展。 最近,三星研究院提出了一种基于自回归建模的新方法,旨在提升图像生成的保真度和可扩展性。 与传统的一次性生成整个场景的方法不同,该方法采用了逐步添加细节的策略,使图像的生成过程更符合人类的创作习惯。
4/22/2025 10:01:03 AM
AI在线
AI大模型看手相!图片视频加持深度思考,阿里QVQ-Max“神了神了”
阿里又发了个有意思的大模型——QVQ-Max,第一版视觉推理模型,对任意图像或视频都可以进行深度思考。 举个有趣的例子,上传一张你的手掌,再点击Thinking,QVQ-Max就可以给你看手相:可以看到,在深度思考过后,QVQ-Max就开始逐步分析手掌上的线条和其他特征。 包括心线、头线、生命线等主要线条的分析,以及戒指手指上的金戒指的象征意义。
3/31/2025 7:30:00 AM
量子位
ChatGPT 的新 AI 图像功能延迟对免费用户开放
OpenAI 首席执行官萨姆・阿尔特曼在社交媒体上宣布,ChatGPT 新推出的图像功能的上线时间将推迟,原因是用户的需求远远超出了公司的预期。 阿尔特曼表示:“ChatGPT 中的图像功能比我们想象的要受欢迎得多(而且我们的预期已经很高了)。 ”本周二,OpenAI 刚刚推出了 GPT-4o 的原生图像生成功能,允许用户上传和修改图像,并表示该功能将很快向所有用户开放。
3/27/2025 9:10:00 AM
AI在线
OpenAI发布最新图像生成模型:GPT-4o内置多轮对话编辑功能
2025年3月25日,OpenAI宣布其最新图像生成模型正式内置于GPT-4o中,这一突破性升级为用户带来了更强大的图像生成与编辑体验。 据悉,该功能已于今日开始向ChatGPT和Sora的所有Plus、Pro、Team以及免费用户逐步推出。 这一消息迅速引发了科技界的广泛关注。
3/26/2025 8:48:00 AM
AI在线
LuminaBrush 在图像上绘制照明效果的构建交互式工具
LuminaBrushLuminaBrush 是一个构建交互式工具以在图像上绘制照明效果的项目。 该框架采用两阶段方法:第一阶段将图像转换为“均匀照明”的外观,第二阶段利用用户涂鸦生成照明效果。 相关链接HF 演示:: 目前基于 Flux。
2/25/2025 10:40:00 AM
AIGC Studio
腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT
今天介绍的文章来自公众号粉丝投稿,腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT,给定一个人像图像和一个衣物图像,就可以生成一个展示人物穿着所提供衣物的图像。 FitDiT 在虚拟试穿中表现出色,解决了各种场景中与纹理感知保存和尺寸感知试穿相关的挑战。 引言基于图像的虚拟试穿是当前电商场景流行且前景看好的图像合成技术,能够显著改善消费者的购物体验并降低服装商家的广告成本。
2/20/2025 9:36:45 AM
AIGC Studio
李飞飞看中的万亿赛道,中国首个自研空间智能AI登场!单张图即生3D世界
就在刚刚,昆仑万维正式发布了一款全新自研的Matrix-Zero世界模型。 Matrix-Zero世界模型包含两款子模型:昆仑万维自研的3D场景生成大模型与昆仑万维自研的可交互视频生成大模型。 包括两部分功能:支持将用户输入的图片转化为可自由探索的真实合理的3D场景;支持根据用户输入实时生成互动视频效果。
2/17/2025 7:30:00 AM
新智元
谷歌AI图像混合工具Google Whisk全球上线,覆盖100多个国家
谷歌近日宣布,其基于人工智能的图像混合工具Google Whisk已在全球100多个国家/地区正式推出。 这款工具最初于去年在美国发布,旨在通过创新的图像混合技术,为用户提供更简单、更具创意的图像生成体验。 与传统的图像生成工具不同,Google Whisk允许用户上传三张图像,分别代表主题、场景和风格。
2/13/2025 11:00:33 AM
AI在线
IC-Portrait:打造逼真个性化肖像的新纪元
在数字内容创作、虚拟形象、游戏和增强现实等领域,肖像生成已成为计算机图形学研究的热点。 尽管近年来肖像生成模型取得了显著进展,能够生成越来越逼真和吸引人的肖像,但仍面临诸多挑战。 今天,给大家介绍一种个性化肖像生成框架IC-Portrait,该框架引入了一种创建逼真肖像图像的创新方法。
2/11/2025 10:30:00 AM
AIGC Studio
OpenAI新项目Sora内测图像生成器,或将推出DALL-E 4?
近日,OpenAI 发布了一则引人注目的消息:在其内部测试的项目 Sora 中,除了已经推出的视频生成功能外,图像生成功能也在紧锣密鼓地研发中。 这个新功能让用户能够在视频和图像生成之间快速切换,提升创作的灵活性。 根据内部消息,Sora 将会增加一个隐藏的切换按钮,用户只需在提示栏中选择即可在两种模式之间切换。
2/10/2025 10:48:00 AM
AI在线
谷歌推出Imagen 3图像生成 API,每张仅需0.03美元
谷歌近日宣布,旗下最新的图像生成模型 ——Imagen3,现已通过 Gemini API 向开发者开放。 这个模型不仅具备强大的图像生成能力,还能根据输入的文本提示创造出多种艺术风格的图像,涵盖从超现实主义到动漫角色的广泛范畴。 Imagen3的使用非常简单,开发者只需通过 API 提交文本描述,模型便会迅速生成高质量图像。
2/10/2025 10:15:00 AM
AI在线
阿里通义实验室提出AnyStory:开启个性化文本到图像生成的新篇章!
在这个数字化时代,生成式AI技术正以前所未有的速度改变着我们的创作方式。 近期,阿里通义实验室发表了一篇题为《AnyStory: Towards Unified Single and Multi-Subject Personalization in Text-to-Image Generation》的论文,该论文提出了一种创新的框架,旨在通过统一的路径实现单个及多个主体的个性化文本到图像生成,为故事可视化、艺术创作乃至更多领域带来了革命性的突破。 论文中深入探讨了当前文本到图像生成技术面临的挑战,如主体一致性、细节保留以及多主体个性化等方面的不足。
1/24/2025 12:11:21 PM
AIGC Studio
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊