理论
BrainOmni:首个统一脑电磁基础模型,实现跨设备、跨模态的通用脑信号表征
作者丨论文团队编辑丨ScienceAI上海人工智能实验室(上海 AI 实验室)联合清华大学、剑桥大学等合作单位,正式发布 BrainOmni—— 全球首个统一 脑电(EEG)与脑磁(MEG)的大脑基础模型。 BrainOmni 通过一种新注意力机制,模拟了脑科学中源重构算法的前向过程,并且首次利用传感器的真实物理属性(坐标、方向、类型)替代通道命名,从而实现跨设备、跨模态兼容。 通过 1997 小时 EEG 和 656 小时 MEG 的大规模自监督预训练,BrainOmni 在 9 项下游任务上超越现有基础模型与专用模型,并在未见过的设备上展现强零样本泛化能力。
12/11/2025 2:52:00 PM
ScienceAI
Astribot Lumo-1: 能在物理空间中推理和行动的通用操作大模型
Lumo-1 是一个大规模的视觉-语言-动作(VLA)模型。 该模型能够泛化到新的物体、环境和指令 - 包括涉及抽象或间接描述的指令,并且可以高效得适应新任务,包括需要推理或精确操作的任务。 Lumo-1 继承现有视觉-语言模型(VLMs)强大的多模态推理能力,然后逐步将这种能力扩展到关于物理世界的具身推理和真实世界的动作执行。
12/11/2025 2:14:00 PM
新闻助手
OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为
在如今的 AI 领域,大多数大语言模型在很大程度上仍以「黑箱」方式工作,即使是专业的研究者也难以完全理解它们的内部计算过程。 因此,提升模型的透明度有助于分析和解释大语言模型产生幻觉、行为不稳定或在关键场景做出不可靠判断的潜在原因。 就在今天,OpenAI 发布了一项新研究,使用新方法来训练内部机制更易于解释的小型稀疏模型,其神经元之间的连接更少、更简单,从而观察它们的计算过程是否更容易被人理解。
11/14/2025 6:01:00 PM
机器之心
HuggingFace发布超200页「实战指南」,从决策到落地「手把手」教你训练大模型
近期,HuggingFace 发布的超过 200 页的超长技术博客,系统性地分享训练先进 LLM 的端到端经验。 博客的重点是 LLM 开发过程中「混乱的现实」。 它坦诚地记录了哪些方法有效、哪些会失败,以及如何应对实际工程中遇到的陷阱。
11/9/2025 8:41:00 PM
机器之心
Feed-Forward 3D综述:三维视觉如何「一步到位」
在 3D 视觉领域,如何从二维图像快速、精准地恢复三维世界,一直是计算机视觉与计算机图形学最核心的问题之一。 从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF),再到 3D Gaussian Splatting (3DGS),技术的演进让我们离实时、通用的 3D 理解越来越近。 然而,以往的方法往往依赖于每个场景的反复优化(per-scene optimization),既慢又缺乏泛化能力。
11/6/2025 5:59:00 PM
机器之心
稠密监督 × 策略内采样:On-Policy Distillation 如何以 1/10 成本训练专家级小模型
大家好,我是肆〇柒。 我看到一项来自 Thinking Machines Lab 的前沿研究——《On-Policy Distillation》。 这项工作巧妙融合了强化学习的策略内采样优势与知识蒸馏的稠密监督信号,不仅将后训练成本降至传统 RL 的十分之一,还在数学推理、个性化助手和持续学习等关键场景中展现出惊人的效率与稳定性。
11/4/2025 9:42:07 AM
肆零柒
从 “一刀切” 到 “精准筛”:DeepSieve 用四步流水线重构 RAG,告别检索噪声!
在大语言模型(LLMs)主导的AI时代,知识密集型任务始终面临一个核心矛盾:LLM擅长复杂推理,但受限于固定参数无法动态获取最新或领域专属知识;检索增强生成(RAG)虽能链接外部知识,却常因“一刀切”的检索逻辑陷入噪声冗余、推理浅薄的困境。 来自罗格斯大学、西北大学与NEC实验室的团队提出的DeepSieve,创新性地将LLM作为“知识路由器”,通过多阶段信息筛选机制,为异构知识源与复杂查询的精准匹配提供了新解法。 本文将带您深入拆解这一方案的设计思路与实验效果。
11/4/2025 9:31:03 AM
Goldma
"人工测试"迈向“无人测试",2025年IT产研升级面临“大变”
出品 | 51CTO技术栈(微信号:blog51cto)一个略显科幻的场景正在软件研发领域悄然上演:开发工程师将代码合并入CI/CD流水线后,一个AI驱动的“质量保障智能体”便被瞬间唤醒。 它能够辅助解析需求文档PRD,自主规划测试策略,并高效生成覆盖边界条件的测试用例与测试脚本。 面对大模型对复杂领域的理解产生的“幻觉”,通过人机协同和工程化的调优,Agent在发现UI渲染异常或API错误时,能快速自动化地收集日志、分析关键链路,并提交一份完善附带复现路径和初步修复建议的报告。
11/4/2025 9:30:10 AM
诺奖一年后,AI奠基人辛顿再发警告:中国十年后会超越美国;人类在亲自制造外星人;AI带来大规模失业潮将失控,需切尔诺贝利时刻警醒
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)拿下诺奖一年之后,AI奠基人、“AI教父”辛顿·杰弗里,却成了那个最担忧人工智能的人。 这位让神经网络走入现实的科学家,在刚刚放出的采访视频中再次以一种几乎绝望的语气告诉全人类:“我们正在亲手制造外星人。 ”这些外星人不会从星空降临,而是从代码中诞生。
11/4/2025 9:23:20 AM
云昭
LangChain重磅推出DeepAgents CLI:支持持久化记忆的AI编程助手
LangChain团队近日正式发布了DeepAgents CLI,这是一款专为编程、研究和构建AI代理而设计的命令行工具。 最大的亮点在于支持持久化记忆系统,让AI助手能够学习和记住信息,并在不同会话之间保持记忆连续性。 现在,开发者可以直接从终端轻松创建和运行自定义的DeepAgents代理。
11/4/2025 9:16:14 AM
阿丸笔记
抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入
在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。 近日,字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding——一款专为大规模推荐场景设计的全模态嵌入基础模型,不仅实现了视觉、文本、音频的统一表征,更在抖音真实业务场景中带来显著效果提升,相关技术报告已正式公开。 论文标题:SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model技术报告: 能力概览突破传统局限:全模态 工业级优化双管齐下现有多模态嵌入模型主要分为两类:以 CLIP 为代表的双塔架构,虽高效但模态融合浅;以 MLLM 为基础的融合架构,虽语义能力强却多局限于图文模态。
11/4/2025 9:00:00 AM
说话像ChatGPT,统统拉黑!「AI腔」正毁掉社交,奥特曼都受不了
遇到AI,直接拉黑。 不是AI,说话像AI的也拉黑! 自ChatGPT发布以来,「AI腔」就一直颇受网友诟病。
11/4/2025 8:50:00 AM
现在整个AI投资逻辑都错了!微软CEO首次承认:成排的H100正在积灰,插不上电
真正的瓶颈早已不是芯片,而是电力Satya刚刚透露:整个AI行业的投资逻辑都错了,市场根本没有对相关公司进行重新定价微软有机架成排的H100正在积灰,原因不是不想用,而是不能用——根本没有相应的电力基础设施来支持它们运行这意味着,所有那些根据芯片采购量和GPU数量为这些公司定价的分析师模型,从根本上就是错的。 你正在为错误的约束条件估值。 瓶颈早已转移,而市场仍在像2023年那样交易重写资本支出方程这完全改写了资本支出的等式当微软斥资500亿美元购买英伟达GPU时,华尔街将其誉为AI投资,并推高了两家公司的股价。
11/4/2025 8:49:47 AM
硅谷甄嬛传爆更,马斯克转发!Ilya动手那一夜,谁捅了奥特曼一刀?
Ilya备忘录还是被马斯克转发出来了! 这份10月1日就记录在案的备忘录,简直复杂且幼稚得到难以想象。 AI圈子最顶尖天才、OpenAI的创造者们,在宫斗方面也复杂到一言难尽。
11/4/2025 8:46:22 AM
大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”
多模态大模型(MLLM)在自然图像上已取得显著进展,但当问题落在图表、几何草图、科研绘图等结构化图像上时,细小的感知误差会迅速放大为推理偏差。 线性、刚性的“链式思考”流程也难以支撑复杂任务中必要的回溯与分支探索。 为此,微软亚洲研究院联合清华大学、香港科技大学提出PixelCraft:以高保真图像处理与非线性多智能体推理为两大支柱,系统性提升结构化图像理解的准确性、鲁棒性与可解释性,在多个图表与几何基准上给出一致的性能增益。
11/4/2025 8:44:00 AM
斯坦福7B智能体全面超越GPT-4o,推理流登顶HF
当前AI Agent的发展正陷入两难的境地:一方面,训练「全能型」大模型让其同时承担推理、规划与工具调用,虽具一体化优势,但在长链推理中往往训练不稳定、扩展性受限;另一方面,基于prompt的智能体系统虽具灵活性,却缺乏学习与自我优化能力,无法从交互中持续进化。 如何突破这一瓶颈? 斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和Lambda的研究团队给出了新答案:让智能体系统在推理「流」中进行在线强化学习,从而实现持续的自我提升与能力进化。
11/4/2025 8:42:27 AM
我为马斯克扮演机器人!擎天柱背后竟是最贵「演员团」
万圣节当天,特斯拉擎天柱(Optimus)亮相纽约时代广场,为现场观众分发糖果。 在特斯拉餐厅里,它还为马斯克卖苦力,亲自为顾客递上了一份爆米花。 这些光鲜演示的背后,是由一支血肉之躯组成的「数据大军」在默默支撑。
11/4/2025 8:39:35 AM
实战:SpringBoot+MCP 让你的系统秒变AI助手
在人工智能技术快速演进的今天,大语言模型正在重新定义软件与用户的交互方式。 传统的图形界面和复杂API正在被一种更加直观的交互模式所补充——自然语言对话。 用户不再需要翻阅冗长的技术文档或在多层菜单中导航,只需用日常语言表达需求,比如"请帮我筛选去年出版的所有编程类书籍"或"创建一个新用户,姓名为张三,邮箱为[email protected]"。
11/4/2025 7:52:48 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
Gemini
马斯克
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
特斯拉
场景
AI模型
深度学习
亚马逊
架构
Transformer
MCP
编程
视觉
预测