资讯列表
谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作
想挑战 Transformer 的新架构有很多,来自谷歌的“正统”继承者 Titan 架构更受关注。 英伟达把测试时间计算(Test-time Computing)称为大模型的第三个 Scaling Law。 OpenAI 把它用在推理(Reasoning),谷歌这次把它用在了记忆(Memory)。
1/14/2025 2:06:11 PM
量子位
同时提升摄像机控制效率、视频质量,可控视频生成架构AC3D来了
可控的视频生成需要实现对摄像机的精确控制。 然而,控制视频生成模型的摄像机运动(camera control)总是不可避免地伴随着视频质量的下降。 近期,来自多伦多大学、Vector Institute、Snap Research 和西蒙・弗雷泽大学(SFU)的研究团队推出了 AC3D (Advanced 3D Camera Control)。
1/14/2025 2:02:05 PM
机器之心
思维链?思维树?华为诺亚:现在到了思维森林时刻!
OpenAI 接连发布 o1 和 o3 模型,大模型的高阶推理能力正在迎来爆发式增强。 在预训练 Scaling law “撞墙” 的背景下,探寻新的 Scaling law 成为业界关注的热点。 高阶推理能力有望开启新的 Scaling law,为大模型的发展注入新的活力。
1/14/2025 1:52:56 PM
国产推理大模型决战2025考研数学,看看谁第一个上岸?
随着上个月 2025 研究生考试的结束,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。 业内曾有着这样一种共识:大语言模型在文字水平上的表现令人印象深刻,但说到数学就不甚令人满意了。 去年一度火出圈的「9.9 与 9.11」比大小的问题,包括 GPT-4o 在内的很多大模型都翻车了,直到深度推理模型出现后才从根本上改善了这一状况。
1/14/2025 1:51:18 PM
使用 CNN 进行时间序列预测!!
1D 卷积层(One-Dimensional Convolutional Layer)是卷积神经网络(CNN)的基本组成部分,广泛应用于处理一维序列数据,如时间序列分析、自然语言处理、语音识别等。 1D 卷积层是深度学习中用于处理序列数据的重要工具。 它通过滑动窗口方式提取局部特征,并在多个通道间整合信息。
1/14/2025 1:32:47 PM
程序员小寒
微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」!
LLM只能针对问题进行回答与分析?这种「隔靴搔痒」的体验也许就要被终结了! 最近,微软推出了一项名为「大型行动模型」(Large Aciton Model,LAM)的创新技术,标志着大模型从语言理解向实际执行任务的转变。 与传统的LLM不同,LAM不仅能理解用户的自然语言指令,还能将这些指令转化为具体的行动步骤,在软件环境中自主执行文档编辑、表格处理等任务。
1/14/2025 1:04:08 PM
量子位
物理学家发现新型量子粒子!表现介于玻色子费米子之间 | Nature
新型量子粒子出现了,相关论文已经登上Nature。 事情是这样的,美国布朗大学物理学家发现了一类既不属于玻色子,也不属于费米子的新粒子,这种粒子的表现介于两种基本粒子之间,被称为“分数激子”。 研究人员表示,这种新粒子不携带整数电荷,却遵循独特的量子统计规律。
1/14/2025 12:28:01 PM
量子位
抢先OpenAI“虚拟员工”!清华复旦斯坦福联手,让Agent接管电脑帮你工作
抢先OpenAI的“Operator”,清华、复旦、斯坦福等研究者联合起来整了个大活~他们提出了一个名为“Eko”的Agent开发框架,开发者只需用简洁的代码和自然语言,就能快速构建可用于生产的“虚拟员工”:Agent可以接管用户的电脑和浏览器,代替人类完成各种任务。 而这个操作,正是之前OpenAI被爆出的“Operator”所能实现的。 爆料称OpenAI将会这个月发布“Operator”,现在直接被截胡了。
1/14/2025 12:22:10 PM
最强代码模型刷新:Mistral新品上线即登顶,上下文窗口增至256k
“欧洲版 OpenAI” Mistral 的代码模型 CodeStral,又上新了! 而且与 DeepSeek V2.5 和 Claude 3.5 平起平坐,共同位列 Copilot 竞技场第一名。 上下文窗口也增长到了之前的 8 倍,达到了 256k。
1/14/2025 12:22:06 PM
AI生物学家:当「基础模型」撞上「生物学混沌」,谁才是解谜高手?
编辑丨toileter在如今的 AI for Biology 社区里,当今的词汇是基础模型。 每个人都希望将更多事物的更大的数据放入更大的模型中进行计算测试。 虚拟细胞模型将使研究者们能够预测细胞状态如何响应化学扰动而产生变化。
1/14/2025 11:58:00 AM
ScienceAI
AMD与约翰霍普金斯大学联手:AI实验室copilot自动化科研,成本节约84%!
编辑 | 2049科学研究,尤其是机器学习领域的研究,往往需要大量的时间和资源投入,从最初的构思到最终的结果产出,每一步都充满了挑战。 近年来,大型语言模型(Large Language Models,LLMs)在自然语言处理和代码生成方面取得了显著进展,这为自动化科学研究提供了新的可能性。 然而,现有的自动化研究工具通常只能处理单个环节,如文献综述或实验设计,无法实现全流程的自动化。
1/14/2025 11:56:00 AM
ScienceAI
微软新专利探索游戏设计:AI 定制剧情、玩法等
根据美国商标和专利局(USPTO)最新公示的清单,微软获得了一项专利技术,利用生成式人工智能(AI)设计游戏,赋予设计者和玩家通过指令定制游戏体验的能力。
1/14/2025 11:00:45 AM
故渊
性能爆拉30%!英伟达DreamDrive:时空一致下的生成重建大一统新方案~
写在前面 & 笔者的个人理解从自车的驾驶轨迹中生成真实的视觉图像是实现自动驾驶模型可扩展训练的关键一步。 基于重建的方法从log中生成3D场景,并通过神经渲染合成几何一致的驾驶视频,但它们对昂贵标注的依赖限制了它们在野外驾驶场景中的泛化能力。 另一方面,生成模型可以以更通用的方式合成动作条件驾驶视频,但往往难以保持3D视觉的一致性。
1/14/2025 11:00:00 AM
Jiageng Mao等
Torchtune:重塑大语言模型微调的新篇章
在当今的深度学习领域,大语言模型(LLMs)的微调已成为实现定制化模型功能的关键步骤。 为了满足这一需求,Torchtune应运而生,它是一个专为PyTorch设计的库,旨在简化LLMs的编写、微调及实验过程。 本文将详细介绍Torchtune的功能、特性、使用方法及其社区支持。
1/14/2025 10:56:14 AM
tune
2025年的AI与数据创新:影响企业成功的五大预测
打开电视或流式播放最新的新闻广播,你很可能会以某种方式听到AI被提及,显然,与过去几年一样,AI如今仍然盛行。 对于一些消费者和企业而言,公司可能夸大了这项新兴技术的重要性。 AI这个,AI那个……但现实是,AI已成为不可逆转的趋势,并将在全球技术的未来、消费者与技术的互动方式以及企业的运营方式中发挥巨大作用。
1/14/2025 10:55:18 AM
Venkat Achanta
3D虚拟试穿来了,上大、腾讯等提出ClotheDreamer,数字人也能实现穿,脱衣自由!
今天,给大家介绍上大、腾讯等提出的3D服装合成新方法ClotheDreamer,它以其革命性的能力,从简单的文本提示直接生成高保真、可穿戴的3D服装资产,正在重塑电商与空间计算领域的未来。 数字人也能实现穿、脱衣自由了!相关链接论文阅读::(即将开源)项目地址: 3D 服装对于数字化身创建来说既是理想的也是具有挑战性的。 最近基于扩散的分数蒸馏采样 (SDS) 方法已经实现了新的可能性,但要么与人体错综复杂地耦合,要么难以重复使用。
1/14/2025 10:30:00 AM
AIGC Studio
刚刚,美国首个全球AI禁令颁布!英伟达AMD禁运,各国分三级上限5万块
果然,美国芯片限制新规,正式上线了! 上周曾有消息曝出,拜登政府欲在交接之际放出最后一搏。 而就在1月13日,拜登政府发布全面规则,芯片禁令正式出台。
1/14/2025 10:20:35 AM
新智元
ETH&PICO开源MADPose:通过显式仿射校正单目深度预测的相对位姿估计方法
本文经3D视觉之心公众号授权转载,转载请联系出处。 单目深度估计的关键局限和挑战近年来,基于深度学习的单目深度估计(Monocular Depth Estimation, MDE)能够从单张二维图像中提取出日益准确的三维信息。 这些进展为利用三维先验丰富传统几何计算机视觉任务开辟了新的可能性。
1/14/2025 9:48:24 AM
3D视觉之心