理论
刚刚,最佳VLA模型GigaBrain-0开源:世界模型驱动10倍数据,真机碾压SOTA
近日,在湖北武汉东湖高新区,极佳视界与湖北人形机器人创新中心完成战略合作签约,并联合发布端到端VLA「具身基础模型」GigaBrain-0。 这是国内首个利用「世界模型」生成数据实现真机泛化的视觉-语言-动作(VLA)基础模型,旨在通过世界模型为中心,无论在数据侧还是模型侧,彻底改变通用机器人大脑的开发方式。 GigaBrain-0拥有当前最先进的VLA模型架构,同时支持图像、点云、文本、本体状态的输入,输出结构化的任务规划和运动规划,并在大规模的数据上完成预训练,可以实现更精准的移动导航和长序列的复杂操作。
OpenAI一夜间重组!野心时间线来了!奥特曼最新采访首曝内部时间表:2028年打造出自动化AI研究员!10年内实现超级智能
编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)一夜之间,OpenAI大动作不断。 10月29日凌晨,Sam Altman 和 OpenAI 首席科学家 Jakub Pachocki共同出席了一场罕见的路线图直播,并在直播中表示,通过持续扩展深度学习,人类将在不到十年内实现超级智能。 图片此外他们还透露,OpenAI 内部正在朝着 2026 年 9 月实现“实习级 AI 研究助理”的目标前进,并计划在 2028 年打造出一名完全自动化的“真正的 AI 研究员”。
把蛋白质当「话语」来读:超级计算机用语言模型跨物种预测蛋白-蛋白相互作用
编辑丨&在一张桌前有两个人,倘若我们能读懂他们的语言神态,那我们就能推断出下一刻他们会是争吵亦或是握手。 现在,把「人」换成蛋白质,把「话」换成氨基酸序列——蛋白质相互作用是生命过程的核心:信号传导、代谢通路、病毒入侵宿主等,都依赖特定蛋白质之间的物理接触。 倘若能读懂其中的相互作用,也就能为接下来的一系列研究铺平道路。
RAG 分块新突破!LGMGC 框架让抽取式问答效率翻倍
在检索增强生成(RAG)技术席卷开放域问答(ODQA)领域的当下,多数研究者的目光都聚焦在检索算法优化与生成模型升级上,却忽略了一个关键环节 —— 文档分块。 看似简单的分块过程,实则是决定 RAG 性能的 “隐形基石”:若分块缺乏上下文,检索到的信息碎片化;若分块包含过多无关内容,生成器又会被冗余信息干扰。 今天要为大家介绍的 Logits-Guided Multi-Granular Chunker(LGMGC)框架,正是针对这一痛点提出的创新解决方案,让文档分块既 “懂语义” 又 “多粒度”,大幅提升抽取式问答效果。
衡量企业AI成功的10个关键指标
这个过程并不容易。 根据Gartner的研究,近半数的AI决策者承认,他们的企业在估算和展示AI价值方面存在困难。 未能将AI项目与业务影响挂钩的IT领导者,可能会陷入AI炒作陷阱,例如资源过度扩张或项目臃肿。
掌握RAG系统的七个优秀GitHub存储库
译者 | 李睿审校 | 重楼检索增强生成(RAG)的生态系统在过去几年中迅速崛起。 如今,互联网上涌现出越来越多帮助开发人员构建RAG应用程序的开源项目。 而RAG是一种通过外部知识源增强大型语言模型(LLM)的有效方法。
零售商应如何应对AI购物者的崛起?
随着这些快速发展的态势,许多消费者正使用AI来研究产品,还有一小部分人将价格比较、选择甚至结账等环节委托给代理。 尽管很少有消费者会让智能体在没有最终确认的情况下购买商品,但代理仍可对客户旅程的大部分环节造成干扰。 这一最终交易环节的到来速度,超出了供应商的预期,并且可能很快就会在消费者购买中占据相当大的份额。
双管齐下:联邦学习防投毒攻击与梯度泄露,华南理工深北莫研究成果登上TMC与IoT
随着联邦学习在物联网(IoT)系统中的广泛应用,如何在保障数据隐私的同时有效抵御恶意攻击,已成为学界与产业界的共同难题。 针对这一问题,华南理工大学计算机学院与深圳北理莫斯科大学合作,提出了FedMSBA和FedMAR两种防御方法。 其中,FedMSBA利用混合差分隐私机制,结合逐层感知方法,为参与方提供了更佳的理论隐私预算。
跳出建筑圈,扎根鸿蒙生态:一位跨界开发者的项目攻坚与职业蜕变
在技术的浪潮里,真正的开拓者总能在风向初起时便感知未来。 徐庆,一位从建筑系跨入到代码世界的开发者,正是这样的先行者。 当许多人还在观望时,他便察觉到万物互联的风口,并将个人职业的新航向,坚定地指向了“鸿蒙”这片广阔的海域。
OpenAI完成资本重组,奥特曼宣称28年实现完全自动化AI研究员
就在昨晚,OpenAI 宣布完成资本重组,并简化公司结构。 具体来讲,非营利组织仍然控制着营利性机构,并且在 AGI 到来之前能够直接获得大量资源。 这个非营利组织现在被称为 OpenAI 基金会(OpenAI Foundation),持有当前估值约为 1300 亿美元的营利性机构(下文的 OpenAI Group)的股权,持股26%,其余 47% 的股份由现任及前任员工和投资者持有。
推理时扰动高熵词,增强LLM性能
本文第一作者杨震,香港科技大学(广州)博士生,研究方向是多模态理解与生成等。 本文通讯作者陈颖聪,香港科技大学(广州)助理教授,主要研究课题包括生成模型、具身智能等。 随着对大语言模型的研究越来越深入,关于测试时间扩展 (test-time scaling) 的相关研究正迅速崭露头角。
逼近5万亿美元!英伟达GTC深夜爆拉市值,Vera Rubin超级芯片首露面
昨夜,英伟达让人眼花缭乱。 从大规模 GPU 部署和量子突破,到安全的 AI 工厂、机器人技术和自动驾驶,黄仁勋在 NVIDIA GTC Washington 的舞台上勾勒出了美国 AI 世纪 (America’s AI century) 的蓝图。 黄仁勋 Keynote 演讲后,英伟达股价应声上涨,今天涨幅已经达到 4.98%,这也使得英伟达的市值增加 2300 多亿美元,来到了前所未有的 4.89 万亿美元,此前甚至触及 4.94 万亿美元!
刚刚,OpenAI股改完成,非营利主体更名
刚刚,OpenAI宣布已完成资本结构重组。 这就意味着,OpenAI上市的道路已经铺平,而软银前几天刚批准的225亿美元投资,也将顺利到账。 具体来说,OpenAI重组后,非营利主体(即原本的OpenAI Nonprofit)改名为OpenAI Foundation,继续掌控营利实体——持有营利实体的26%股份,目前估值约1300亿美元。
高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA
时间序列预测来到真正意义上的“高维赛场”! 从原来几百维的小数据集到万维系统,时序预测模型面对真实世界,终于不用再“一碰就脆”。 这是来自全华人团队最新研究——业界首个专为高维时间序列预测设计的大规模基准Time-HD。
Cursor重新定义浏览器-AI代码编辑器的革命性突破
在AI技术飞速发展的今天,Cursor作为新一代AI代码编辑器,正在重新定义开发者的工作方式。 其最新推出的浏览器代理功能,让AI助手能够直接控制Web浏览器,实现应用测试、无障碍审计、设计转代码等复杂任务,为开发者带来了前所未有的自动化体验。 通过访问控制台日志和网络流量,AI能够深入调试问题并自动化执行全面的测试工作流程。
超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
近期,DeepSeek-OCR提出了“Vision as Context Compression”的新思路,然而它主要研究的是通过模型的OCR能力,用图片压缩文档。 那么自然图像是否也能作为文本的压缩呢? 中科院&字节联合提出的「Grasp Any Region」提供了新思路。
不再死记硬背,检索增强生成让AI实现开卷考试
你是不是也遇到过这种情况:问AI助手“今年的新款手机有哪些”,它介绍的还是半年前的旧款。 这根本不是AI助手笨,而是它的知识库没更新。 这种知识过期的根源,在于大模型的训练数据存在固定截止日期,重新训练更新知识需耗费资金和时间成本,检索增强生成(RAG)技术的出现为这一行业痛点提供了解决方案。
Excel新AI插件!华尔街「表哥表姐」对手来了
Claude牵手微软,准备进军华尔街,在金融服务领域插一脚了! Anthropic宣布他们正在通过一个Claude For Excel来实时对接市场数据和投资组合等金融领域数据。 Claude正在分析一份包含Acme Grille, Inc.
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉