模型
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
在图像/视频生成任务中,传统的“下一个token预测”方法正面临严重的效率瓶颈。 来自浙大、上海AI Lab等机构的研究人员提出了一种全新的视觉生成范式——邻近自回归建模(Neighboring Autoregressive Modeling, NAR)。 与传统的“下一个token预测”不同,NAR模型采用了“下一个邻域预测”的机制,将视觉生成过程视为一种逐步扩展的“外绘”过程。
3/31/2025 9:32:00 AM
量子位
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
生命的一切表现,基本都可以从DNA编码中找到答案。 基因组(Genome)包含了生物体所有基因以及非编码的DNA序列,承载了生物体发育、生长、繁殖和适应环境所需的全部遗传信息,近年来基因组相关的测序、合成和编辑工具已经彻底改变了生物学研究。 然而,基因组的复杂性是巨大的,即使是最简单的微生物,也包含数百万个DNA碱基对,要智能地构建新的生物系统,研究人员还需要深入理解基因组编码的复杂信息。
3/31/2025 9:30:00 AM
新智元
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
用上动态强化学习,多模态大模型也能实现泛化推理了? 来自OPPO研究院和港科广的科研人员提出了一项新技术——OThink-MR1,将强化学习扩展到多模态语言模型,帮助其更好地应对各种复杂任务和新场景。 研究人员表示,这一技术使业界突破多模态泛化推理能力。
3/31/2025 9:22:00 AM
量子位
高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后
「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难? 对于现如今的LMMs来说,通过各种人类「听着就头痛,看又看不懂」的基准测试似乎已是家常便饭。 比如DeepSeek-R1发布时在6大基准测试(包含AIME、MMLU、MATH-500等)中超过o1取得领先。
3/31/2025 9:20:00 AM
新智元
自动驾驶首次应用测试时计算!港大英伟达等新技术让AI边开边学,无人车遇变道自如应对
当开车遇到变道、加塞等场景时,驾驶员往往会下意识地激活自己的“安全驾驶思维”,从而做出激进的规避行为。 与之类似,自动驾驶汽车在上述场景中,更会表现得像个谨小慎微的”新手司机”,这是因为模型的决策往往依赖于工程师预设的固定规则,进而导致“不求无功,但求无过”的驾驶风格,但过多的无故急刹、过度避让反而会引发额外的安全隐患。 针对上述问题,来自香港大学、英伟达和德国图宾根大学的联合团队提出Centaur(Cluster Entropy for Test-time trAining using UnceRtainty)方法,能够动态地改善驾驶策略,通过在线的数据驱动,摆脱了对预设规则的依赖,大幅提高了自动驾驶汽车在不确定性场景中的适应性与安全性。
3/31/2025 9:17:00 AM
量子位
AI跨本体组队!智源发布首个跨本体具身大小脑协作框架+开源具身大脑
3月29日,智源研究院在2025中关村论坛「未来人工智能先锋论坛」上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。 开源链接:具身多模态大脑模型RoboBrainGithub::::::,打造感知-认知-决策-行动闭环在具身场景中,长程操作任务是机器人执行复杂任务的核心能力之一。 具身大脑RoboBrain融合了机器人任务规划、可操作区域感知、轨迹预测的三维能力,通过将抽象指令映射为具象动作序列,增强长程操作任务的能力。
3/31/2025 9:10:00 AM
新智元
网上晒图要当心!AI六成可能知道你在哪儿
AI轻松击败人类! 这次是看图猜地名:给AI一张全新的照片,它能猜出照片在哪儿拍摄的,而且准确率还相当高。 也就是说,从图像中,AI能识别地理信息方面。
3/31/2025 9:00:00 AM
新智元
“计算机视觉被GPT-4o终结了”(狗头)
一夜之间,CV被大模型“解决”了(狗头)。 万物皆可吉卜力之后,GPT-4o原生多模态图像生成更多玩法被开发出来。 一个男友回头表情包,可以秒变语义分割图。
3/31/2025 8:44:00 AM
量子位
Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光
AI的性能愈发强大,一个新模型可能前一天还是SOTA(最佳模型),第二天就被拍了下去。 不过,这些强大的AI上空总有一团迷雾笼罩。 那就是:他们到底是怎么找到答案的?
3/31/2025 8:30:00 AM
新智元
单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节
从单张图像生成灵活视角3D场景的技术来了,在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值。 这一任务本质上是高度不适定的:单一的2D图像无法提供足够的信息来消除完整3D结构的歧义,尤其是在极端视角(如180°旋转)下,先前被遮挡或缺失的内容可能会引入显著的不确定性。 生成模型,特别是扩散模型,为解决这一问题提供了一种潜在的技术路径。
3/31/2025 8:27:00 AM
量子位
3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST
3D生成版DeepSeek再上新高度! 国产、易用、性能强且开源——新模型一露面就刷新SOTA,并且第一时间加入开源全家桶。 顺时针转个圈圈给大家看,效果是这样:加上“皮肤”是这样:再来一个,效果是这样:肉眼可见,这次妥妥升级变成了更细节的细节控~以上效果,都来自3D大模型明星初创公司VAST,其刚刚上新的两个基础模型,TripoSG和TripoSF,为团队的最新研发成果。
3/31/2025 8:25:00 AM
量子位
马斯克xAI蛇吞𝕏:资本有了,数据有了,商业模式也有了
马斯克旗下两大公司正式合并! xAI以全股票交易的方式收购了X(推特),此次交易中xAI的估值为800亿美元,对X的估值为330亿美元(450亿美元资产减去120亿美元债务)。 马斯克自己在X上发帖宣布这一消息。
3/31/2025 8:15:00 AM
量子位
Claude团队开盒Transformer:AI大脑原来这样工作
大模型工作机制的黑盒,终于被Claude团队揭开了神秘面纱! 团队创造了一种解读大模型思考方式的新工具,就像给大模型做了个“脑部核磁”。 他们还发现,Claude在某些任务上具备长远规划能力,甚至还会为了迎合人类而编造推理过程。
3/31/2025 8:12:00 AM
量子位
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
AI社区掀起用大模型玩游戏之风! 例如国外知名博主让DeepSeek和Chatgpt下国际象棋的视频在Youtube上就获得百万播放,ARC Prize组织最近也发布了一个贪吃蛇LLM评测基准SnakeBench。 针对这一场景,来自港大、剑桥和北大的研究人员发布了一个更全面、客观可信的LLM评测基准:GameBoT。
3/31/2025 8:00:00 AM
量子位
港大开源博士级AI智能体,独立完成三篇算法研究,一站式科研6小时搞定
这三篇论文,出自同一AI之手。 随着人工智能技术的迅猛发展,OpenAI提出的五级模型(涵盖从对话系统到协作管理者)已成为行业发展的重要参考框架。 其中,“自主研究智能体”(Autonomous Research Agent)作为第三至第四阶段的核心技术,正受到全球范围内越来越多的关注。
3/31/2025 7:50:00 AM
量子位
专抓AI“看图说谎”,谷歌哥大用三类陷阱触发幻觉,打造可随技术发展动态演进的评估框架
幻觉(Hallucination),即生成事实错误或不一致的信息,已成为视觉-语言模型 (VLMs)可靠性面临的核心挑战。 随着VLMs在自动驾驶、医疗诊断等关键领域的广泛应用,幻觉问题因其潜在的重大后果而备受关注。 然而,当前针对幻觉问题的研究面临多重制约:图像数据集的有限性、缺乏针对多样化幻觉触发因素的综合评估体系,以及在复杂视觉问答任务中进行开放式评估的固有困难。
3/31/2025 7:40:00 AM
量子位
AI大模型看手相!图片视频加持深度思考,阿里QVQ-Max“神了神了”
阿里又发了个有意思的大模型——QVQ-Max,第一版视觉推理模型,对任意图像或视频都可以进行深度思考。 举个有趣的例子,上传一张你的手掌,再点击Thinking,QVQ-Max就可以给你看手相:可以看到,在深度思考过后,QVQ-Max就开始逐步分析手掌上的线条和其他特征。 包括心线、头线、生命线等主要线条的分析,以及戒指手指上的金戒指的象征意义。
3/31/2025 7:30:00 AM
量子位
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind