视觉推理

大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索

大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索

henry 发自凹非寺. 量子位 | 公众号终于有人要给大模型安“脖子”了！在最新的论文Thinking in 360°: Humanoid Visual Search in the Wild中，来自纽约大学的研究团队让大模型能够环顾四周，进行360度的全方位思考。

11/27/2025 4:25:06 PM henry

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

OpenAI o3的多轮视觉推理，有开源平替版了。并且，与先前局限于1-2轮对话的视觉语言模型（VLM）不同，它在训练限制轮数只有6轮的情况下，测试阶段能将思考轮数扩展到数十轮。图片这个模型叫Mini-o3，它无需消耗大量训练周期资源，通过恰当的数据、初始化方法和强化学习微调，即可实现长周期视觉搜索能力。

9/15/2025 2:42:55 PM

上海AI Lab、浙大EagleLab等提出RRVF：利用「验证非对称性」，只输入图片学习视觉推理

上海AI Lab、浙大EagleLab等提出RRVF：利用「验证非对称性」，只输入图片学习视觉推理

本本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。第一作者陈杨是浙江大学硕士生，研究方向为多模态大模型和推理，本工作完成于她在上海AI Lab实习期间，实习所在团队以Agent-Ready的知识为核心，实现「提取-结构化-推理」全链路，包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab，正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。

8/9/2025 12:41:00 PM 机器之心

王炸！中国AI再添“王牌军”！昆仑万维 Skywork R1V 多模态推理模型震撼开源！

王炸！中国AI再添“王牌军”！昆仑万维 Skywork R1V 多模态推理模型震撼开源！

昆仑万维今日正式宣布，他们打造的 Skywork R1V 多模态推理模型，正式开源了!这不仅是中国首个工业界开源的多模态推理模型，更标志着中国AI力量在多模态理解和推理领域，迈出了里程碑式的一步!即日起，模型权重和技术报告完全对外敞开怀抱!想象一下，一个AI模型不仅能看懂图片，还能像人类一样进行逻辑推理，解决复杂的视觉难题——这不再是科幻电影里的场景，而是 Skywork R1V 正在实现的能力!这款模型就像一位“AI界的福尔摩斯”，它擅长抽丝剥茧，通过多步骤的逻辑分析，从海量视觉信息中挖掘出深层含义，最终给出精准答案。无论是破解视觉逻辑谜题，解答高难度的视觉数学题，还是分析图像中的科学现象，甚至是辅助医学影像的诊断推理，Skywork R1V 都能展现出惊人的实力。要衡量一个AI模型的“智商”，数据最有说服力!在 Reasoning 推理能力方面，Skywork R1V 在权威的 MATH500和 AIME 基准测试中，分别斩获94.0和72.0的超高分!这意味着，无论是破解复杂的数学难题，还是进行严谨的逻辑推理，Skywork R1V 都能轻松胜任。

3/18/2025 6:05:00 PM AI在线

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉