AI在线 AI在线

图像

F-Lite登陆Hugging Face,10亿参数扩散变换器革新文本到图像生成

Hugging Face平台正式上线F-Lite,一款拥有10亿参数的文本到图像扩散变换器(Diffusion Transformer)。 据AIbase了解,F-Lite以其高效的生成能力和轻量化设计,迅速成为AI图像生成领域的焦点,社交平台上的讨论凸显其对开发者与创作者的吸引力。 相关细节已通过Hugging Face官网(huggingface.co)与社区公开。
4/30/2025 11:00:51 AM
AI在线

Perplexity AI登陆WhatsApp,集成原生图像生成开启智能交互新篇章

Perplexity AI宣布正式集成WhatsApp平台,为用户带来实时搜索、来源引证与原生图像生成等强大功能。 据AIbase了解,这一更新允许用户在WhatsApp聊天中直接调用AI助手,获取精准答案并生成定制化图像,无需离开对话界面。 社交平台上的热烈反响凸显了其便捷性与创新性,相关细节已通过Perplexity官网(perplexity.ai)与社交媒体公开。
4/29/2025 12:01:01 PM
AI在线

光影魔术手!Gen-4 References 惊艳亮相,AI 实时混合图像,精准拿捏光影氛围!

一项名为Gen-4References的图像生成技术在社交平台引发广泛关注,以其强大的实时图像混合能力成为AI创作领域的新焦点。 据AIbase了解,该技术通过融合两张参考图像,根据用户描述的构图需求生成新图像,精准保留环境光影并支持复杂主体定位。 相关演示已在社交媒体公开,展示了其在艺术创作与商业设计中的潜力。
4/29/2025 11:00:51 AM
AI在线

AI图像分割新王者:BiRefNet如何重新定义视觉精度边界?

一、当“抠图”变成毫米级手术:BiRefNet的技术突破你是否想过,为什么电商商品图能精准抠出发丝? 为什么自动驾驶车辆能瞬间识别行人轮廓? 答案可能藏在一种名为BiRefNet的AI模型中。
4/28/2025 3:22:45 AM
智Echo

全网最全「吉卜力」AI神器总结!只要2分钟,照片秒变吉卜力

创建吉卜力风格的图像,现在很流行。 甚至还可以根据图像,生成吉卜力动画:「神秘的微笑」蒙娜丽莎,都会主动和你打招呼! 但是,97%的人可能不知道如何创建它们。
4/17/2025 8:51:20 AM
新智元

多模态生成框架新SOTA:文本+空间+图像随意组合,20W+数据开源,复旦腾讯优图出品

能处理任意条件组合的新生成框架来了! 复旦大学、腾讯优图实验室等机构的研究人员提出UniCombine,一种基于DiT的多条件可控生成框架,能够处理包括但不限于文本提示、空间映射和主体图像在内的任意控制条件的任意组合,并保持高度的一致性和出色的和谐性。 具体效果be like:图片据了解,现有的多条件可控生成框架或是只能处理单一种类的多个条件,或是只适用于某种特定的多类别组合,从而普遍缺乏通用性的多类别 多条件的组合式生成能力。
4/17/2025 2:55:00 AM

AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型

多模态大语言模型(MLLM)在具身智能和自动驾驶“端到端”方案中的应用日益增多,但它们真的准备好理解复杂的物理世界了吗? 上海交通大学联合中国地质大学、南洋理工大学、智源研究院以及斯坦福大学的研究团队推出首个多模态大模型(MLLM)时空智能评测基准STI-Bench(Spatial-Temporal Intelligence Benchmark),向当前最先进的多模态大语言模型发起了关于精确空间时间理解的严峻挑战。 结果显示,即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等当前最强的多模态大模型,在需要定量分析真实世界空间关系和动态变化的任务上,表现并不尽人意。
4/15/2025 12:14:10 PM
量子位

南洋理工&普渡大学提出CFG-Zero*:在Flow Matching模型中实现更稳健的无分类器引导方法

本篇论文是由南洋理工大学 S-Lab 与普渡大学提出的无分类引导新范式,支持所有 Flow Matching 的生成模型。 目前已被集成至 Diffusers 与 ComfyUI。 论文标题:CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models论文地址::: AI 的快速发展,文本生成图像与视频的扩散模型(Diffusion Models)已成为计算机视觉领域的研究与应用热点。
4/9/2025 1:16:26 PM
机器之心

GPT-4o图像生成架构被“破解”了?自回归主干+扩散解码器,还有4o图像生成全面测评基准

GPT-4o图像生成架构被“破解”了! 最近一阵,“万物皆可吉卜力”让GPT-4o的图像生成功能一炮而红,人们随之好奇:4o图像生成的架构底层逻辑到底是什么? GPT-4o究竟强在哪?
4/9/2025 9:08:34 AM

20万+围观GPT-4o整出Gif!我们玩出新高度

编辑 | Sia这届网友真是把 AI 玩出花! 继谷歌 Gemini 2.0 Flash 去水印骚操作后,Reddit 社区的老哥们又用 GPT-4o 解锁动画制作新姿势——直接生成动画关键帧。 只需简单指令,模型直接吐出连贯动作序列帧,丝滑程度堪比动画师原画。
4/8/2025 9:21:00 PM
AI好好用

首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考

从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro,AI 视觉创作正迎来生产力大爆炸。 一个重要问题随之浮现:如何评估机器生成的画质符合人眼审美? 人眼能瞬间辨别图像优劣,但教会机器理解「好看」却充满挑战。
4/8/2025 9:50:00 AM
机器之心

OpenAI 的新 GPT-4o 图像生成技术绝对会改变游戏规则

GPT-4o 的图像生成功能刚刚发布就直接开始摧毁传统行业,甚至让 OpenAI 的 CEO 山姆·奥特曼(Sam Altman)都直呼:“我也看不懂眼前发生的一切! ”图片传统的设计软件,比如 Photoshop,现在可真是如临大敌了。 一、图像融合的能力彻底超越传统工具 来看一个让人震惊的图像融合实例:图片传统的 Photoshop 顶多就是简单地将人物图层叠加到背景图上,对光影和角度的细节通常还要手动调整。
4/7/2025 12:00:00 AM
dev

我下下决心再给老板发哈哈哈

编辑 | 萝卜皮原子结构的高分辨率可视化对于理解材料微观结构与宏观性质之间的关系具有重要意义。 然而,在原子分辨率显微镜中,快速、准确、稳健地自动解析复杂模式的方法仍然难以实现。 北京大学、厦门大学、中南大学以及深势科技等组成的研究团队,提出了一种基于 Trident 策略增强的解缠结表示学习方法(生成模型)。
4/1/2025 2:30:00 PM
ScienceAI

GPT-4o骗了所有人,逐行画图只是前端特效?!底层架构细节成迷,奥特曼呼吁大家别玩了

GPT-4o玩家太疯狂,奥特曼紧急呼吁别再生成图片了:OpenAI团队为此一直在熬夜。 为什么需要熬夜呢,自原生图像生成推出以来,必须一直有人守着才能保持服务器在线。 与此同时,有人通过分析ChatGPT前端代码,发现用户看到的逐行生成效果只是浏览器端的动画。
3/31/2025 11:23:02 AM

不止吉卜力!GPT-4o新玩法全网疯传,网友:AI成精了

万万没想到,GPT-4o图像生成功如此火爆,奥特曼在线直呼太疯狂! 前有「吉卜力风」一夜爆火,今有「文艺复兴」席卷全网。 GPT-4o直接让外国网友Cosplay「文艺复兴名场面」!
3/31/2025 9:27:03 AM
新智元

刷屏网络后,​ChatGPT 开始屏蔽模仿吉卜力风格的图像生成请求

日前,随着 OpenAI 推出其新款 GPT-4o 图像生成能力,网络上涌现出大量模仿日本著名动画公司吉卜力风格的 AI 生成卡通和表情包,引起了广泛关注。 用户们在社交平台上分享了许多恶搞作品,其中有一幅描绘肯尼迪遇刺事件的作品尤为引人注目。 此外,许多人将自己的照片转化为吉卜力电影风格的图像,进一步推动了这一潮流。
3/28/2025 9:20:00 AM
AI在线

OpenAI在图片领域站起来了!

出品 | 51CTO技术栈(微信号:blog51cto)26日凌晨,OpenAI推出了GPT4o图像生成,可以说解决了此前Midjourney等扩散模型很难解决的问题,业内为之大为赞叹。 这是用手机拍摄的玻璃白板的广角图像,拍摄地点是一间俯瞰海湾大桥的房间。 视野中可以看到一位女士正在写字,她身穿一件印有大型 OpenAI 标志的 T 恤。
3/26/2025 9:29:12 AM

ChatGPT拒绝生成玫瑰图像引发网络热议,AI禁忌词再添新例

近日,一位网友在社交平台 X 上发现,ChatGPT 的最新版本 GPT-4o 在尝试生成一朵玫瑰花的图像时,竟然一口回绝,声称 “我无法生成这朵玫瑰的图像,因为它未能符合我们的内容政策”。 这一意外的拒绝迅速引起了众多网友的关注和讨论,许多人开始探究其中的原因,甚至试图找到绕过这一限制的方法。 为了验证这个现象,网友们纷纷进行了一系列实验。
3/6/2025 11:22:00 AM
AI在线