图像
KREA AI携手ChatGPT推出视觉提示编辑功能,释放图像创作新潜能
KREA AI近日推出了一项令人振奋的功能更新,通过集成OpenAI的GPT图像API,用户可利用编辑标记、基本形状、注释和参考图像,以视觉方式提示ChatGPT进行快速图像编辑。 这一创新功能极大提升了图像创作的灵活性和互动性,为用户带来了前所未有的创作体验。 AIbase观察到,此功能不仅展示了KREA AI在生成式AI领域的技术实力,也凸显了API在创意应用中的无限可能。
5/6/2025 11:00:51 AM
AI在线
Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型
西班牙数字图形巨头 Freepik 近日推出了其最新的文本到图像生成模型“F Lite”,旨在成为 Midjourney 等因版权问题而备受争议的生成器的合法且安全的替代品。 F Lite 拥有约100亿个参数,其独特之处在于完全基于 Freepik 自身商业授权的图像库进行训练。 Freepik 声称,这使其成为首个完全依赖“工作安全”内容进行训练的如此规模的公开模型。
5/6/2025 10:01:20 AM
AI在线
Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活
在图像生成领域,Midjourney 近期推出了一项名为 “Omni-Reference”(全向参考)的新功能,为用户带来了更大的创作自由。 这一全新图像引用系统不仅是 V6版本中 “角色参考” 功能的升级版,更是赋予用户在创作过程中对图像元素的精准控制。 核心功能:全向参考与多元素支持Omni-Reference通过先进的图像参考系统,为用户提供了前所未有的创作控制力。
5/3/2025 11:00:48 AM
AI在线
F-Lite登陆Hugging Face,10亿参数扩散变换器革新文本到图像生成
Hugging Face平台正式上线F-Lite,一款拥有10亿参数的文本到图像扩散变换器(Diffusion Transformer)。 据AIbase了解,F-Lite以其高效的生成能力和轻量化设计,迅速成为AI图像生成领域的焦点,社交平台上的讨论凸显其对开发者与创作者的吸引力。 相关细节已通过Hugging Face官网(huggingface.co)与社区公开。
4/30/2025 11:00:51 AM
AI在线
Perplexity AI登陆WhatsApp,集成原生图像生成开启智能交互新篇章
Perplexity AI宣布正式集成WhatsApp平台,为用户带来实时搜索、来源引证与原生图像生成等强大功能。 据AIbase了解,这一更新允许用户在WhatsApp聊天中直接调用AI助手,获取精准答案并生成定制化图像,无需离开对话界面。 社交平台上的热烈反响凸显了其便捷性与创新性,相关细节已通过Perplexity官网(perplexity.ai)与社交媒体公开。
4/29/2025 12:01:01 PM
AI在线
光影魔术手!Gen-4 References 惊艳亮相,AI 实时混合图像,精准拿捏光影氛围!
一项名为Gen-4References的图像生成技术在社交平台引发广泛关注,以其强大的实时图像混合能力成为AI创作领域的新焦点。 据AIbase了解,该技术通过融合两张参考图像,根据用户描述的构图需求生成新图像,精准保留环境光影并支持复杂主体定位。 相关演示已在社交媒体公开,展示了其在艺术创作与商业设计中的潜力。
4/29/2025 11:00:51 AM
AI在线
AI图像分割新王者:BiRefNet如何重新定义视觉精度边界?
一、当“抠图”变成毫米级手术:BiRefNet的技术突破你是否想过,为什么电商商品图能精准抠出发丝? 为什么自动驾驶车辆能瞬间识别行人轮廓? 答案可能藏在一种名为BiRefNet的AI模型中。
4/28/2025 3:22:45 AM
智Echo
全网最全「吉卜力」AI神器总结!只要2分钟,照片秒变吉卜力
创建吉卜力风格的图像,现在很流行。 甚至还可以根据图像,生成吉卜力动画:「神秘的微笑」蒙娜丽莎,都会主动和你打招呼! 但是,97%的人可能不知道如何创建它们。
4/17/2025 8:51:20 AM
新智元
多模态生成框架新SOTA:文本+空间+图像随意组合,20W+数据开源,复旦腾讯优图出品
能处理任意条件组合的新生成框架来了! 复旦大学、腾讯优图实验室等机构的研究人员提出UniCombine,一种基于DiT的多条件可控生成框架,能够处理包括但不限于文本提示、空间映射和主体图像在内的任意控制条件的任意组合,并保持高度的一致性和出色的和谐性。 具体效果be like:图片据了解,现有的多条件可控生成框架或是只能处理单一种类的多个条件,或是只适用于某种特定的多类别组合,从而普遍缺乏通用性的多类别 多条件的组合式生成能力。
4/17/2025 2:55:00 AM
AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
多模态大语言模型(MLLM)在具身智能和自动驾驶“端到端”方案中的应用日益增多,但它们真的准备好理解复杂的物理世界了吗? 上海交通大学联合中国地质大学、南洋理工大学、智源研究院以及斯坦福大学的研究团队推出首个多模态大模型(MLLM)时空智能评测基准STI-Bench(Spatial-Temporal Intelligence Benchmark),向当前最先进的多模态大语言模型发起了关于精确空间时间理解的严峻挑战。 结果显示,即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等当前最强的多模态大模型,在需要定量分析真实世界空间关系和动态变化的任务上,表现并不尽人意。
4/15/2025 12:14:10 PM
量子位
南洋理工&普渡大学提出CFG-Zero*:在Flow Matching模型中实现更稳健的无分类器引导方法
本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式,支持所有 Flow Matching 的生成模型。 目前已被集成至 Diffusers 与 ComfyUI。 论文标题:CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models论文地址::: AI 的快速发展,文本生成图像与视频的扩散模型(Diffusion Models)已成为计算机视觉领域的研究与应用热点。
4/9/2025 1:16:26 PM
机器之心
GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器,还有4o图像生成全面测评基准
GPT-4o图像生成架构被“破解”了! 最近一阵,“万物皆可吉卜力”让GPT-4o的图像生成功能一炮而红,人们随之好奇:4o图像生成的架构底层逻辑到底是什么? GPT-4o究竟强在哪?
4/9/2025 9:08:34 AM
20万+围观GPT-4o整出Gif!我们玩出新高度
编辑 | Sia这届网友真是把 AI 玩出花! 继谷歌 Gemini 2.0 Flash 去水印骚操作后,Reddit 社区的老哥们又用 GPT-4o 解锁动画制作新姿势——直接生成动画关键帧。 只需简单指令,模型直接吐出连贯动作序列帧,丝滑程度堪比动画师原画。
4/8/2025 9:21:00 PM
AI好好用
首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考
从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro,AI 视觉创作正迎来生产力大爆炸。 一个重要问题随之浮现:如何评估机器生成的画质符合人眼审美? 人眼能瞬间辨别图像优劣,但教会机器理解「好看」却充满挑战。
4/8/2025 9:50:00 AM
机器之心
OpenAI 的新 GPT-4o 图像生成技术绝对会改变游戏规则
GPT-4o 的图像生成功能刚刚发布就直接开始摧毁传统行业,甚至让 OpenAI 的 CEO 山姆·奥特曼(Sam Altman)都直呼:“我也看不懂眼前发生的一切! ”图片传统的设计软件,比如 Photoshop,现在可真是如临大敌了。 一、图像融合的能力彻底超越传统工具 来看一个让人震惊的图像融合实例:图片传统的 Photoshop 顶多就是简单地将人物图层叠加到背景图上,对光影和角度的细节通常还要手动调整。
4/7/2025 12:00:00 AM
dev
我下下决心再给老板发哈哈哈
编辑 | 萝卜皮原子结构的高分辨率可视化对于理解材料微观结构与宏观性质之间的关系具有重要意义。 然而,在原子分辨率显微镜中,快速、准确、稳健地自动解析复杂模式的方法仍然难以实现。 北京大学、厦门大学、中南大学以及深势科技等组成的研究团队,提出了一种基于 Trident 策略增强的解缠结表示学习方法(生成模型)。
4/1/2025 2:30:00 PM
ScienceAI
GPT-4o骗了所有人,逐行画图只是前端特效?!底层架构细节成迷,奥特曼呼吁大家别玩了
GPT-4o玩家太疯狂,奥特曼紧急呼吁别再生成图片了:OpenAI团队为此一直在熬夜。 为什么需要熬夜呢,自原生图像生成推出以来,必须一直有人守着才能保持服务器在线。 与此同时,有人通过分析ChatGPT前端代码,发现用户看到的逐行生成效果只是浏览器端的动画。
3/31/2025 11:23:02 AM
不止吉卜力!GPT-4o新玩法全网疯传,网友:AI成精了
万万没想到,GPT-4o图像生成功如此火爆,奥特曼在线直呼太疯狂! 前有「吉卜力风」一夜爆火,今有「文艺复兴」席卷全网。 GPT-4o直接让外国网友Cosplay「文艺复兴名场面」!
3/31/2025 9:27:03 AM
新智元
资讯热榜
昆仑万维面向全球发布天工超级智能体Skywork Super Agents
超多案例!让 Lovart 作图更好看更高效的提示词在这里了!
Flowith NEO发布!全球首款无限步骤、上下文与工具的AI Agent
昆仑万维天工超级智能体发布!AI Office革命来袭,Deep Research碾压OpenAI,成本仅40%!
谷歌发布Flow AI剪辑工具:Veo3 与Imagen4 驱动、镜头控制与场景扩展
告别“单打独斗”!AI 协作新范式 MoA,如何集结大模型“梦之队”?
字节跳动开源多模态模型 BAGEL:图文生成与编辑的新突破
Google搜索推出AI Mode实验,探索全新智能问答体验
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
腾讯
Anthropic
神经网络
研究
3D
计算
Sora
机器学习
AI设计
AI for Science
生成
苹果
GPU
AI视频
搜索
场景
华为
百度
训练
人形机器人
Claude
预测
伟达
xAI
深度学习
Transformer
大语言模型
智能体
字节跳动
模态
文本
具身智能
神器推荐
Copilot
驾驶
LLaMA
视觉
API
算力
应用
安全
干货合集
工具
大型语言模型
视频生成
Agent