图像

字节跳动携手港大与华中科技大学推出UniTok，革新视觉分词技术

近日，字节跳动联合香港大学和华中科技大学共同推出了全新的视觉分词器 UniTok。这款工具不仅能在视觉生成和理解任务中发挥作用，还在技术上进行了重要创新，解决了传统分词器在细节捕捉与语义理解之间的矛盾。 UniTok 采用了多码本量化技术，能够将图像特征分割成多个小块，并用独立的子码本进行量化。

5/7/2025 6:00:54 PM AI在线

腾讯元宝文生图功能升级支持混元和DeepSeek两大模型生成

腾讯元宝宣布其文生图功能全面升级，支持混元和DeepSeek两大模型生成图片。这一升级使得用户只需通过简单的一句话描述，即可生成高质量、复杂且富有想象力的图像。腾讯元宝的这一功能升级结合了腾讯混元最新的文生图模型，已在元宝全端上线。

5/7/2025 5:00:44 PM AI在线

Recraft 获得3000万美元B轮融资，图像生成技术引领行业潮流

在图像生成领域，初创公司 Recraft 近日宣布成功完成3000万美元的 B 轮融资。这一轮融资由知名投资机构 Accel 领投，Khosla Ventures 和 Madrona 等公司也参与其中。总部位于美国旧金山的 Recraft 在2024年曾获得由 Khosla Ventures 领投的1200万美元 A 轮融资，目前其年化经常性收入（ARR）已突破500万美元，用户数也达到了400万。

5/7/2025 10:01:29 AM AI在线

Recraft 获 3000 万美元 B 轮融资，图像生成技术挑战行业巨头

初创公司 Recraft 近日宣布完成3000万美元的 B 轮融资。这轮融资由知名风险投资公司 Accel 领投，其他投资机构如 Khosla Ventures 和 Madrona 也参与其中。 Recraft 总部位于美国旧金山，此前在2024年曾获得1200万美元的 A 轮融资，目前公司年化经常性收入已超过500万美元，并拥有400万注册用户。

5/6/2025 7:00:41 PM AI在线

KREA AI携手ChatGPT推出视觉提示编辑功能，释放图像创作新潜能

KREA AI近日推出了一项令人振奋的功能更新，通过集成OpenAI的GPT图像API，用户可利用编辑标记、基本形状、注释和参考图像，以视觉方式提示ChatGPT进行快速图像编辑。这一创新功能极大提升了图像创作的灵活性和互动性，为用户带来了前所未有的创作体验。 AIbase观察到，此功能不仅展示了KREA AI在生成式AI领域的技术实力，也凸显了API在创意应用中的无限可能。

5/6/2025 11:00:51 AM AI在线

Freepik 发布“F Lite”：一个为版权安全而构建的开放 AI 图像模型

西班牙数字图形巨头 Freepik 近日推出了其最新的文本到图像生成模型“F Lite”，旨在成为 Midjourney 等因版权问题而备受争议的生成器的合法且安全的替代品。 F Lite 拥有约100亿个参数，其独特之处在于完全基于 Freepik 自身商业授权的图像库进行训练。 Freepik 声称，这使其成为首个完全依赖“工作安全”内容进行训练的如此规模的公开模型。

5/6/2025 10:01:20 AM AI在线

Midjourney V7推出全新功能 “Omni-Reference”，让图像生成更灵活

在图像生成领域，Midjourney 近期推出了一项名为 “Omni-Reference”（全向参考）的新功能，为用户带来了更大的创作自由。这一全新图像引用系统不仅是 V6版本中 “角色参考” 功能的升级版，更是赋予用户在创作过程中对图像元素的精准控制。核心功能:全向参考与多元素支持Omni-Reference通过先进的图像参考系统，为用户提供了前所未有的创作控制力。

5/3/2025 11:00:48 AM AI在线

F-Lite登陆Hugging Face，10亿参数扩散变换器革新文本到图像生成

Hugging Face平台正式上线F-Lite，一款拥有10亿参数的文本到图像扩散变换器（Diffusion Transformer）。据AIbase了解，F-Lite以其高效的生成能力和轻量化设计，迅速成为AI图像生成领域的焦点，社交平台上的讨论凸显其对开发者与创作者的吸引力。相关细节已通过Hugging Face官网(huggingface.co)与社区公开。

4/30/2025 11:00:51 AM AI在线

Perplexity AI登陆WhatsApp，集成原生图像生成开启智能交互新篇章

Perplexity AI宣布正式集成WhatsApp平台，为用户带来实时搜索、来源引证与原生图像生成等强大功能。据AIbase了解，这一更新允许用户在WhatsApp聊天中直接调用AI助手，获取精准答案并生成定制化图像，无需离开对话界面。社交平台上的热烈反响凸显了其便捷性与创新性，相关细节已通过Perplexity官网（perplexity.ai）与社交媒体公开。

4/29/2025 12:01:01 PM AI在线

光影魔术手！Gen-4 References 惊艳亮相，AI 实时混合图像，精准拿捏光影氛围！

一项名为Gen-4References的图像生成技术在社交平台引发广泛关注，以其强大的实时图像混合能力成为AI创作领域的新焦点。据AIbase了解，该技术通过融合两张参考图像，根据用户描述的构图需求生成新图像，精准保留环境光影并支持复杂主体定位。相关演示已在社交媒体公开，展示了其在艺术创作与商业设计中的潜力。

4/29/2025 11:00:51 AM AI在线

AI图像分割新王者：BiRefNet如何重新定义视觉精度边界？

一、当“抠图”变成毫米级手术：BiRefNet的技术突破你是否想过，为什么电商商品图能精准抠出发丝？为什么自动驾驶车辆能瞬间识别行人轮廓？答案可能藏在一种名为BiRefNet的AI模型中。

4/28/2025 3:22:45 AM 智Echo

全网最全「吉卜力」AI神器总结！只要2分钟，照片秒变吉卜力

创建吉卜力风格的图像，现在很流行。甚至还可以根据图像，生成吉卜力动画：「神秘的微笑」蒙娜丽莎，都会主动和你打招呼！但是，97%的人可能不知道如何创建它们。

4/17/2025 8:51:20 AM 新智元

多模态生成框架新SOTA：文本+空间+图像随意组合，20W+数据开源，复旦腾讯优图出品

能处理任意条件组合的新生成框架来了！复旦大学、腾讯优图实验室等机构的研究人员提出UniCombine，一种基于DiT的多条件可控生成框架，能够处理包括但不限于文本提示、空间映射和主体图像在内的任意控制条件的任意组合，并保持高度的一致性和出色的和谐性。具体效果be like：图片据了解，现有的多条件可控生成框架或是只能处理单一种类的多个条件，或是只适用于某种特定的多类别组合，从而普遍缺乏通用性的多类别多条件的组合式生成能力。

4/17/2025 2:55:00 AM

AI能看懂图像却算不好距离，上交时间-空间智能基准难倒9大顶尖多模态模型

多模态大语言模型（MLLM）在具身智能和自动驾驶“端到端”方案中的应用日益增多，但它们真的准备好理解复杂的物理世界了吗？上海交通大学联合中国地质大学、南洋理工大学、智源研究院以及斯坦福大学的研究团队推出首个多模态大模型（MLLM）时空智能评测基准STI-Bench（Spatial-Temporal Intelligence Benchmark），向当前最先进的多模态大语言模型发起了关于精确空间时间理解的严峻挑战。结果显示，即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等当前最强的多模态大模型，在需要定量分析真实世界空间关系和动态变化的任务上，表现并不尽人意。

4/15/2025 12:14:10 PM 量子位

南洋理工&普渡大学提出CFG-Zero*：在Flow Matching模型中实现更稳健的无分类器引导方法

本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式，支持所有 Flow Matching 的生成模型。目前已被集成至 Diffusers 与 ComfyUI。论文标题：CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models论文地址：：： AI 的快速发展，文本生成图像与视频的扩散模型（Diffusion Models）已成为计算机视觉领域的研究与应用热点。

4/9/2025 1:16:26 PM 机器之心

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

GPT-4o图像生成架构被“破解”了！最近一阵，“万物皆可吉卜力”让GPT-4o的图像生成功能一炮而红，人们随之好奇：4o图像生成的架构底层逻辑到底是什么？ GPT-4o究竟强在哪？

4/9/2025 9:08:34 AM

20万+围观GPT-4o整出Gif！我们玩出新高度

编辑 | Sia这届网友真是把 AI 玩出花！继谷歌 Gemini 2.0 Flash 去水印骚操作后，Reddit 社区的老哥们又用 GPT-4o 解锁动画制作新姿势——直接生成动画关键帧。只需简单指令，模型直接吐出连贯动作序列帧，丝滑程度堪比动画师原画。

4/8/2025 9:21:00 PM AI好好用

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro，AI 视觉创作正迎来生产力大爆炸。一个重要问题随之浮现：如何评估机器生成的画质符合人眼审美？人眼能瞬间辨别图像优劣，但教会机器理解「好看」却充满挑战。

4/8/2025 9:50:00 AM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena LangChain V1.0 深度解析：手把手带你跑通全新智能体架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画 AI新词大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 英伟达马斯克 Anthropic 图像 AI创作训练 LLM 论文代码 AI for Science 苹果腾讯算法 Agent Claude 芯片 Stable Diffusion 具身智能 xAI 蛋白质开发者人形机器人生成式神经网络机器学习 AI视频 3D RAG 大语言模型字节跳动 Sora 百度研究 GPU 生成工具华为 AGI 计算 AI设计生成式AI 大型语言模型搜索视频生成亚马逊 AI模型特斯拉 DeepMind 场景深度学习 Copilot Transformer 架构 MCP 编程视觉

图像

字节跳动携手港大与华中科技大学推出UniTok，革新视觉分词技术

腾讯元宝文生图功能升级 支持混元和DeepSeek两大模型生成

Recraft 获得3000万美元B轮融资，图像生成技术引领行业潮流

Recraft 获 3000 万美元 B 轮融资，图像生成技术挑战行业巨头

KREA AI携手ChatGPT推出视觉提示编辑功能，释放图像创作新潜能

Freepik 发布“F Lite”：一个为版权安全而构建的开放 AI 图像模型

Midjourney V7推出全新功能 “Omni-Reference”，让图像生成更灵活

F-Lite登陆Hugging Face，10亿参数扩散变换器革新文本到图像生成

Perplexity AI登陆WhatsApp，集成原生图像生成开启智能交互新篇章

光影魔术手！Gen-4 References 惊艳亮相，AI 实时混合图像，精准拿捏光影氛围！

AI图像分割新王者：BiRefNet如何重新定义视觉精度边界？

全网最全「吉卜力」AI神器总结！只要2分钟，照片秒变吉卜力

多模态生成框架新SOTA：文本+空间+图像随意组合，20W+数据开源，复旦腾讯优图出品

AI能看懂图像却算不好距离，上交时间-空间智能基准难倒9大顶尖多模态模型

南洋理工&普渡大学提出CFG-Zero*：在Flow Matching模型中实现更稳健的无分类器引导方法

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

20万+围观GPT-4o整出Gif！我们玩出新高度

首次引入强化学习！火山引擎Q-Insight让画质理解迈向深度思考

腾讯元宝文生图功能升级支持混元和DeepSeek两大模型生成