文生图模型

Seedream 3.0 文生图模型技术报告发布

Seedream 3.0 文生图模型技术报告发布

字节跳动 Seed 团队正式发布 Seedream 3.0 技术报告。 Seedream 3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型，对比 Seedream 2.0，这一版本的整体性能表现有较大提升，尤其在分辨率、生图结构准确性、数量准确性、多物体属性关系、小字生成与排版、美感效果、真实度等方面有所突破。具体亮点如下：原生 2K 直出，适配多比例场景：无需后处理可直接输出 2K 分辨率图像，从手机端到巨幅海报场景的视觉需求均可满足；3 秒出图，大幅提升创作效率：面向海报设计、视觉创意等需求，可实现 3 秒左右快速生成高品质图像，实现“所想即所得”的实时创意交互；小字更准，文本排版效果增强：优化小字体高保真生成、多行文本语义排版等业界难题，让 AI 具备商业级图文设计能力；美感&结构提升，生成富有感染力：指令遵循进一步增强，人体和物体结构崩坏改善，且进一步弱化了出图的 AI 感，实现从“看得清”到“有感染力”的审美提升。

4/24/2025 6:02:45 AM 豆包大模型团队

腾讯混元开源定制化图像生成插件 InstantCharacter

腾讯混元开源定制化图像生成插件 InstantCharacter

腾讯混元宣布开源定制化图像生成插件 InstantCharacter，并实现了对开源文生图模型 Flux 的兼容。这一插件的推出，标志着图像生成技术在角色一致性和图像生成精确度上取得了重大突破，为内容创作者提供了更高效、更灵活的创作工具。 InstantCharacter 的核心优势在于能够确保角色在不同场景中的一致性和真实性，同时具备高画质和精度，以及灵活的文本编辑性。

4/18/2025 12:02:38 PM AI在线

豆包深度思考和文生图3.0模型正式开放API 对企业客户开放

豆包深度思考和文生图3.0模型正式开放API 对企业客户开放

豆包大模型近日发布了系列更新，其中豆包1.5·深度思考模型和豆包文生图模型3.0正式通过火山引擎开放 API，供开发者和企业客户使用。这两款模型在推理任务和通用任务的综合表现达到了业界前沿水平，并在视觉推理和图像生成方面取得了显著进展。豆包1.5·深度思考模型在专业领域推理任务中表现出色，数学推理 AIME2024测试得分追平 OpenAI o3-mini-high，编程竞赛 Codeforces pass@8得分接近 OpenAI o1，科学推理 GPQA 得分接近 o3-mini-high，均达到或接近全球第一梯队。

4/17/2025 2:01:15 PM AI在线

字节Seedream 3.0 文生图模型技术报告发布：多项性能大幅升级

字节Seedream 3.0 文生图模型技术报告发布：多项性能大幅升级

字节跳动Seed团队正式发布了Seedream3.0文生图模型的技术报告。这一模型在性能上实现了重大提升，是一个原生高分辨率、支持中英双语的图像生成基础模型，在分辨率、生图结构准确性等多方面取得突破，与上一版本相比优势显著。 Seedream3.0在不同维度上的表现。

4/16/2025 3:01:05 PM AI在线

智谱开源文生图模型CogView4，支持中英双语提示词输入

智谱开源文生图模型CogView4，支持中英双语提示词输入

智谱AI最新开源文生图模型CogView4正式亮相，CogView4不仅在参数数量上达到了6亿，还全面支持中文输入和中文文本到图像的生成，被称其为“首个能在画面中生成汉字的开源模型”。 CogView4以支持中英双语提示词输入为核心亮点，尤其擅长理解和遵循复杂的中文指令，成为中文内容创作者的福音。作为首个能在图像中生成汉字的开源文生图模型，它填补了开源领域的一大空白。

3/4/2025 1:44:00 PM AI在线

解决“佛跳墙、老婆饼”问题，联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”

解决“佛跳墙、老婆饼”问题，联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”

同时通过引入海量中文图文对数据进行预训练，模型对中文专属名词，如鼠标-老鼠、仙鹤-吊车等英文模型易混淆的对象，以及中文菜谱等英文模型无法理解的名词，都能够准确理解并生成对应的图片。

1/8/2025 6:01:41 PM 汪淼

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉