CVPR2025
告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!
当整个 AI 视觉生成领域都在 Transformer 架构上「卷生卷死」时,一项来自北大、北邮和华为的最新研究却反其道而行之,重新审视了深度学习中最基础、最经典的模块——3x3 卷积。 他们提出的 DiC (Diffusion CNN),一个纯卷积的扩散模型,不仅在性能上超越了广受欢迎的 Diffusion Transformer (DiT),更在推理速度上实现了惊人的提升。 这项工作证明了,经过精心设计,简单的卷积网络依然能在生成任务中登峰造极。
7/11/2025 4:37:00 PM
机器之心
腾讯宣布混元3D 2.1大模型对外开源
在计算机视觉领域顶会之一CVPR2025上,腾讯宣布混元3D2.1大模型对外开源,此为首个全链路开源的工业级3D生成大模型,在行业内处于领先地位。 混元3D模型在知名开源社区和技术平台Hugging Face的下载量已超180万,开源效果获全球开发者认可。 此次升级的混元3D2.1模型在效果上有显著提升,上传首饰盒图片后,生成的3D首饰盒纹理清晰、质感细腻、光影一致。
6/16/2025 10:09:58 AM
AI在线
告别平面!MIDI:可提取图片元素生成360度3D场景
还在对着二维照片里的美好场景望眼欲穿?梦想着能身临其境地漫步在那些迷人画面之中?现在,这个愿望有望成为现实!来自CVPR2025的重磅研究——MIDI(Multi-Instance Diffusion for Single Image to3D Scene Generation,多实例扩散单图到3D场景生成)横空出世,它就像一位技艺高超的魔法师,仅凭一张普通的2D图片,就能为你构建出一个栩栩如生的360度3D场景。 一图胜千言?现在还能“变”出整个世界!想象一下,你拍摄了一张阳光洒落的咖啡馆一角,照片里有精致的桌椅、香气四溢的咖啡杯,以及窗外婆娑的树影。 过去,这仅仅是一张静态的平面图像。
3/12/2025 9:35:00 AM
AI在线
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
AI模型