图像
腾讯元宝文生图功能升级 支持混元和DeepSeek两大模型生成
腾讯元宝宣布其文生图功能全面升级,支持混元和DeepSeek两大模型生成图片。 这一升级使得用户只需通过简单的一句话描述,即可生成高质量、复杂且富有想象力的图像。 腾讯元宝的这一功能升级结合了腾讯混元最新的文生图模型,已在元宝全端上线。
5/7/2025 5:00:44 PM
AI在线
Recraft 获得3000万美元B轮融资,图像生成技术引领行业潮流
在图像生成领域,初创公司 Recraft 近日宣布成功完成3000万美元的 B 轮融资。 这一轮融资由知名投资机构 Accel 领投,Khosla Ventures 和 Madrona 等公司也参与其中。 总部位于美国旧金山的 Recraft 在2024年曾获得由 Khosla Ventures 领投的1200万美元 A 轮融资,目前其年化经常性收入(ARR)已突破500万美元,用户数也达到了400万。
5/7/2025 10:01:29 AM
AI在线
Recraft 获 3000 万美元 B 轮融资,图像生成技术挑战行业巨头
初创公司 Recraft 近日宣布完成3000万美元的 B 轮融资。 这轮融资由知名风险投资公司 Accel 领投,其他投资机构如 Khosla Ventures 和 Madrona 也参与其中。 Recraft 总部位于美国旧金山,此前在2024年曾获得1200万美元的 A 轮融资,目前公司年化经常性收入已超过500万美元,并拥有400万注册用户。
5/6/2025 7:00:41 PM
AI在线
KREA AI携手ChatGPT推出视觉提示编辑功能,释放图像创作新潜能
KREA AI近日推出了一项令人振奋的功能更新,通过集成OpenAI的GPT图像API,用户可利用编辑标记、基本形状、注释和参考图像,以视觉方式提示ChatGPT进行快速图像编辑。 这一创新功能极大提升了图像创作的灵活性和互动性,为用户带来了前所未有的创作体验。 AIbase观察到,此功能不仅展示了KREA AI在生成式AI领域的技术实力,也凸显了API在创意应用中的无限可能。
5/6/2025 11:00:51 AM
AI在线
Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型
西班牙数字图形巨头 Freepik 近日推出了其最新的文本到图像生成模型“F Lite”,旨在成为 Midjourney 等因版权问题而备受争议的生成器的合法且安全的替代品。 F Lite 拥有约100亿个参数,其独特之处在于完全基于 Freepik 自身商业授权的图像库进行训练。 Freepik 声称,这使其成为首个完全依赖“工作安全”内容进行训练的如此规模的公开模型。
5/6/2025 10:01:20 AM
AI在线
Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活
在图像生成领域,Midjourney 近期推出了一项名为 “Omni-Reference”(全向参考)的新功能,为用户带来了更大的创作自由。 这一全新图像引用系统不仅是 V6版本中 “角色参考” 功能的升级版,更是赋予用户在创作过程中对图像元素的精准控制。 核心功能:全向参考与多元素支持Omni-Reference通过先进的图像参考系统,为用户提供了前所未有的创作控制力。
5/3/2025 11:00:48 AM
AI在线
F-Lite登陆Hugging Face,10亿参数扩散变换器革新文本到图像生成
Hugging Face平台正式上线F-Lite,一款拥有10亿参数的文本到图像扩散变换器(Diffusion Transformer)。 据AIbase了解,F-Lite以其高效的生成能力和轻量化设计,迅速成为AI图像生成领域的焦点,社交平台上的讨论凸显其对开发者与创作者的吸引力。 相关细节已通过Hugging Face官网(huggingface.co)与社区公开。
4/30/2025 11:00:51 AM
AI在线
Perplexity AI登陆WhatsApp,集成原生图像生成开启智能交互新篇章
Perplexity AI宣布正式集成WhatsApp平台,为用户带来实时搜索、来源引证与原生图像生成等强大功能。 据AIbase了解,这一更新允许用户在WhatsApp聊天中直接调用AI助手,获取精准答案并生成定制化图像,无需离开对话界面。 社交平台上的热烈反响凸显了其便捷性与创新性,相关细节已通过Perplexity官网(perplexity.ai)与社交媒体公开。
4/29/2025 12:01:01 PM
AI在线
光影魔术手!Gen-4 References 惊艳亮相,AI 实时混合图像,精准拿捏光影氛围!
一项名为Gen-4References的图像生成技术在社交平台引发广泛关注,以其强大的实时图像混合能力成为AI创作领域的新焦点。 据AIbase了解,该技术通过融合两张参考图像,根据用户描述的构图需求生成新图像,精准保留环境光影并支持复杂主体定位。 相关演示已在社交媒体公开,展示了其在艺术创作与商业设计中的潜力。
4/29/2025 11:00:51 AM
AI在线
AI图像分割新王者:BiRefNet如何重新定义视觉精度边界?
一、当“抠图”变成毫米级手术:BiRefNet的技术突破你是否想过,为什么电商商品图能精准抠出发丝? 为什么自动驾驶车辆能瞬间识别行人轮廓? 答案可能藏在一种名为BiRefNet的AI模型中。
4/28/2025 3:22:45 AM
智Echo
全网最全「吉卜力」AI神器总结!只要2分钟,照片秒变吉卜力
创建吉卜力风格的图像,现在很流行。 甚至还可以根据图像,生成吉卜力动画:「神秘的微笑」蒙娜丽莎,都会主动和你打招呼! 但是,97%的人可能不知道如何创建它们。
4/17/2025 8:51:20 AM
新智元
多模态生成框架新SOTA:文本+空间+图像随意组合,20W+数据开源,复旦腾讯优图出品
能处理任意条件组合的新生成框架来了! 复旦大学、腾讯优图实验室等机构的研究人员提出UniCombine,一种基于DiT的多条件可控生成框架,能够处理包括但不限于文本提示、空间映射和主体图像在内的任意控制条件的任意组合,并保持高度的一致性和出色的和谐性。 具体效果be like:图片据了解,现有的多条件可控生成框架或是只能处理单一种类的多个条件,或是只适用于某种特定的多类别组合,从而普遍缺乏通用性的多类别 多条件的组合式生成能力。
4/17/2025 2:55:00 AM
AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
多模态大语言模型(MLLM)在具身智能和自动驾驶“端到端”方案中的应用日益增多,但它们真的准备好理解复杂的物理世界了吗? 上海交通大学联合中国地质大学、南洋理工大学、智源研究院以及斯坦福大学的研究团队推出首个多模态大模型(MLLM)时空智能评测基准STI-Bench(Spatial-Temporal Intelligence Benchmark),向当前最先进的多模态大语言模型发起了关于精确空间时间理解的严峻挑战。 结果显示,即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等当前最强的多模态大模型,在需要定量分析真实世界空间关系和动态变化的任务上,表现并不尽人意。
4/15/2025 12:14:10 PM
量子位
南洋理工&普渡大学提出CFG-Zero*:在Flow Matching模型中实现更稳健的无分类器引导方法
本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式,支持所有 Flow Matching 的生成模型。 目前已被集成至 Diffusers 与 ComfyUI。 论文标题:CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models论文地址::: AI 的快速发展,文本生成图像与视频的扩散模型(Diffusion Models)已成为计算机视觉领域的研究与应用热点。
4/9/2025 1:16:26 PM
机器之心
GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器,还有4o图像生成全面测评基准
GPT-4o图像生成架构被“破解”了! 最近一阵,“万物皆可吉卜力”让GPT-4o的图像生成功能一炮而红,人们随之好奇:4o图像生成的架构底层逻辑到底是什么? GPT-4o究竟强在哪?
4/9/2025 9:08:34 AM
20万+围观GPT-4o整出Gif!我们玩出新高度
编辑 | Sia这届网友真是把 AI 玩出花! 继谷歌 Gemini 2.0 Flash 去水印骚操作后,Reddit 社区的老哥们又用 GPT-4o 解锁动画制作新姿势——直接生成动画关键帧。 只需简单指令,模型直接吐出连贯动作序列帧,丝滑程度堪比动画师原画。
4/8/2025 9:21:00 PM
AI好好用
首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考
从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro,AI 视觉创作正迎来生产力大爆炸。 一个重要问题随之浮现:如何评估机器生成的画质符合人眼审美? 人眼能瞬间辨别图像优劣,但教会机器理解「好看」却充满挑战。
4/8/2025 9:50:00 AM
机器之心
OpenAI 的新 GPT-4o 图像生成技术绝对会改变游戏规则
GPT-4o 的图像生成功能刚刚发布就直接开始摧毁传统行业,甚至让 OpenAI 的 CEO 山姆·奥特曼(Sam Altman)都直呼:“我也看不懂眼前发生的一切! ”图片传统的设计软件,比如 Photoshop,现在可真是如临大敌了。 一、图像融合的能力彻底超越传统工具 来看一个让人震惊的图像融合实例:图片传统的 Photoshop 顶多就是简单地将人物图层叠加到背景图上,对光影和角度的细节通常还要手动调整。
4/7/2025 12:00:00 AM
dev
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
用户
微软
GPT
学习
AI新词
技术
智能体
马斯克
Gemini
图像
AI创作
英伟达
Anthropic
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
苹果
AI for Science
Claude
蛋白质
Agent
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
计算
RAG
大语言模型
GPU
华为
Sora
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
预测
视觉
架构
伟达
Transformer
DeepMind
编程
神器推荐
AI模型
亚马逊
特斯拉