模型
刚刚,最佳VLA模型GigaBrain-0开源:世界模型驱动10倍数据,真机碾压SOTA
近日,在湖北武汉东湖高新区,极佳视界与湖北人形机器人创新中心完成战略合作签约,并联合发布端到端VLA「具身基础模型」GigaBrain-0。 这是国内首个利用「世界模型」生成数据实现真机泛化的视觉-语言-动作(VLA)基础模型,旨在通过世界模型为中心,无论在数据侧还是模型侧,彻底改变通用机器人大脑的开发方式。 GigaBrain-0拥有当前最先进的VLA模型架构,同时支持图像、点云、文本、本体状态的输入,输出结构化的任务规划和运动规划,并在大规模的数据上完成预训练,可以实现更精准的移动导航和长序列的复杂操作。
推理时扰动高熵词,增强LLM性能
本文第一作者杨震,香港科技大学(广州)博士生,研究方向是多模态理解与生成等。 本文通讯作者陈颖聪,香港科技大学(广州)助理教授,主要研究课题包括生成模型、具身智能等。 随着对大语言模型的研究越来越深入,关于测试时间扩展 (test-time scaling) 的相关研究正迅速崭露头角。
高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA
时间序列预测来到真正意义上的“高维赛场”! 从原来几百维的小数据集到万维系统,时序预测模型面对真实世界,终于不用再“一碰就脆”。 这是来自全华人团队最新研究——业界首个专为高维时间序列预测设计的大规模基准Time-HD。
超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
近期,DeepSeek-OCR提出了“Vision as Context Compression”的新思路,然而它主要研究的是通过模型的OCR能力,用图片压缩文档。 那么自然图像是否也能作为文本的压缩呢? 中科院&字节联合提出的「Grasp Any Region」提供了新思路。
Excel新AI插件!华尔街「表哥表姐」对手来了
Claude牵手微软,准备进军华尔街,在金融服务领域插一脚了! Anthropic宣布他们正在通过一个Claude For Excel来实时对接市场数据和投资组合等金融领域数据。 Claude正在分析一份包含Acme Grille, Inc.
微调已死!「共识机制」实现提示词自我进化,性能飙升
当前,人工智能领域正经历一场由「模型微调」向「上下文工程」的范式转变。 通过在输入中引入更明确的指令和更丰富详实的知识,「上下文工程」既无需投入高昂的训练成本,亦不依赖开源模型权重参数,同时能够为用户和开发者提供更强的可解释性,正逐渐成为构建高性能、可扩展且具备自我改进能力的 AI 系统的核心范式。 正因如此,「微调已死」成为了AI领域近期广泛认可的热门话题。
新范式!字节提出智能体上下文折叠框架,1/10活跃量突破长周期任务瓶颈
智能体在执行长周期任务时,始终受限于上下文长度。 为此,字节联合提出上下文折叠(Context-Folding)框架,使智能体能够主动管理其工作上下文。 该框架允许智能体通过程序分支进入子轨迹以处理子任务,完成后将中间步骤折叠压缩,仅保留结果摘要。
90后王虹连夺两大「菲尔兹奖」风向标!韦神都来听她讲课,陶哲轩盛赞
今天,34岁中国数学家王虹,拿下了2025 Salem Prize(塞勒姆奖)。 因在调和分析与几何测度论领域重大未解问题上的卓越贡献,获此殊荣。 在业界,它被誉为「菲尔兹」风向标。
AI已经开始自己设计算法,并且超越顶尖人类专家,人类还能做什么?
AI已经开始为自己设计算法,而且发现了比顶尖人类专家更优的算法。 这不是科幻,而是正在发生的事实。 刚刚,谷歌DeepMind团体的一篇论文登上Nature。
超越谷歌Banana,字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2
AI图像编辑与生成,正迎来一场体验革命。 香港中文大学,香港科技大学,香港大学和字节跳动共同研发的系统DreamOmni2,实现图像编辑与生成领域最新SOTA。 指令遵循能力全面领先,真正做到指哪打哪。
VaseVQA:考古领域实现专家级,诊断+补弱RL框架
古希腊陶器是考古学和艺术史的重要实物证据。 研究者需要从单件陶器中提取多层信息:材质与工艺、形制类别、装饰主题、出土地与时间、甚至可能的作坊或画师。 不过传统计算机视觉和通用多模态模型在这类高度专业化任务上常陷入两类困境:一是缺乏领域知识(模型在通用语料里几乎没接触过「雅典黑釉杯」或「红绘风格」这样的概念);二是仅靠监督微调(SFT)容易学到「表层捷径」,在遇到组合性、推理性或少样本问题时就失效。
世界模型==VQA?机器人不用想象画面,预测语义就够了
众所周知,世界模型是一种让 AI「想象未来」的学习方法。 它可以从大量数据中学习世界的运行规律,然后根据当前状态预测未来可能发生的事情。 这种能力非常关键,因为如果 AI 能对未来做出合理预测,就能提前规划出更聪明、更稳健的行动策略。
刚刚,Thinking Machines Lab博客提出在策略蒸馏,Qwen被cue 38次
刚刚,不发论文、爱发博客的 Thinking Machines Lab (以下简称 TML)再次更新,发布了一篇题为《在策略蒸馏》的博客。 在策略蒸馏(on-policy distillation)是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。 在将其用于数学推理和内部聊天助手时,TML 发现在策略蒸馏可以极低的成本超越其他方法。
「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了
近年来,Text-to-Video(T2V)模型取得显著进展——从静态帧质量到连贯的视频叙事,模型能力大幅提升,尤其是最近Sora2的爆火,让人们开始想象,T2V Model是否已经是一个真正的“世界模型”? 然而,传统基准主要考察图像质量与语义一致性,并不能系统衡量模型对事件因果、物理规律与常识的理解,而这些正是“世界模型”的核心能力。 为此,中山大学、香港理工大学、清华大学与OPPO Research Institute合作,在港理工Chair Professor张磊教授的指导下提出了一种新的评测框架——VideoVerse。
美团视频生成模型来了!一出手就是开源SOTA
美团,你是跨界上瘾了是吧! (doge)没错,最新开源SOTA视频模型,又是来自这家“送外卖”的公司。 模型名为LongCat-Video,参数13.6B,支持文生/图生视频,视频时长可达数分钟。
相机参数秒变图片!新模型打通理解生成壁垒,支持任意视角图像创作
能看懂相机参数,并且生成相应视角图片的多模态模型来了。 来自S-Lab、新加坡南洋理工大学、商汤科技、美国密歇根大学、德国马普所的研究员提出了Puffin统一多模态模型。 它能整合理解相机参数(如角度、视野)与按相机参数生成对应视角图片的能力。
美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
每年秋天,美国高等教育界都会迎来一场「期末大考」——U.S. News最佳大学排名。 它不仅牵动数百万学生和家长的择校决策,更在全球范围内左右着学校的声誉与资源。
知识图谱推理新sota,兼顾性能+效率!中科大新作 | NeurIPS'25
知识图谱推理(Knowledge Graph Reasoning)是人工智能的重要组成部分,在问答系统、推荐系统、语义检索和知识增强大模型等场景中具有广泛应用。 然而,随着知识图谱规模的爆炸式增长,现有推理方法在计算效率、模型表达能力和泛化能力方面面临巨大挑战。 现有知识图谱推理方法主要存在以下三类问题:推理效率低:随着知识图谱实体规模增长,候选实体空间极速膨胀,导致推理阶段计算成本急剧上升;表达能力不足:轻量级嵌入模型虽计算高效,但难以捕捉多跳关系和高阶语义结构;过平滑问题突出:基于全局注意力或深层GNN的方法容易在图上过度聚合信息,导致表示不具判别力(如图1所示)。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
AI新词
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
腾讯
算法
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
AI设计
生成式AI
大型语言模型
搜索
视频生成
亚马逊
特斯拉
AI模型
DeepMind
场景
深度学习
Copilot
Transformer
架构
MCP
编程
视觉