Depth Anything
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。近日,一种可有效利用大规模无标注图像的新 MDE 模型 Depth Anything 凭借强大的性能在社交网络上引起了广泛讨论,试用者无不称奇。甚至有试用者发现它还能正确处理埃舍尔(M.C.Escher)那充满错觉的绘画艺术(启发了《纪念碑谷》等游戏和艺术):从水上到水下,丝滑切换:更好的深度模型也得到了效果更好的以深度为条件的 Contr
1/24/2024 11:07:00 AM
机器之心
- 1
资讯热榜
昆仑万维面向全球发布天工超级智能体Skywork Super Agents
超多案例!让 Lovart 作图更好看更高效的提示词在这里了!
Flowith NEO发布!全球首款无限步骤、上下文与工具的AI Agent
昆仑万维天工超级智能体发布!AI Office革命来袭,Deep Research碾压OpenAI,成本仅40%!
Meta 发布巨型 AI 化学数据集 OMol25及通用模型 UMA
YouTube 推出 AI 广告新利器“Peak Points”,Gemini 精准捕捉用户注意力
谷歌发布Flow AI剪辑工具:Veo3 与Imagen4 驱动、镜头控制与场景扩展
告别“单打独斗”!AI 协作新范式 MoA,如何集结大模型“梦之队”?
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
学习
GPT
Meta
图像
AI创作
技术
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
生成式
英伟达
蛋白质
开发者
腾讯
神经网络
Anthropic
研究
3D
计算
Sora
机器学习
AI设计
AI for Science
生成
苹果
GPU
AI视频
搜索
场景
华为
百度
训练
人形机器人
预测
伟达
Claude
xAI
深度学习
Transformer
大语言模型
字节跳动
模态
智能体
文本
具身智能
神器推荐
Copilot
驾驶
LLaMA
视觉
算力
API
应用
安全
干货合集
大型语言模型
视频生成
Agent
工具