AI
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
在灵巧手通用抓取的研究中,由于动作空间维度高、任务具有长程探索特征且涉及多样化物体,传统强化学习(RL)面临探索效率低、奖励函数及训练过程设计复杂等挑战。 基于此,北京大学及BeingBeyond团队提出DemoGrasp框架——一种简单且高效的通用灵巧手抓取学习方法。 该方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑,以适应不同物体与姿态:改变腕部位姿用于确定“抓取位置”,调整手指关节角度用于确定“抓取方式”。
MetaAI解锁Transformer潜意识,仅额外3%计算开销,性能提升最高55%
Meta FAIR部门的研究员François Fleuret发布了一篇名为《The Free Transformer》的论文,提出了一种对现有解码器Transformer模型的精妙扩展。 这项技术的核心,是让模型在生成每个字之前,能先在内部形成一个类似计划或草稿的隐性决策,而不是像过去那样,只能边写边想。 实验证明,这种先计划,后执行的模式,在编程、数学和推理等任务上带来了显著的性能提升。
AI「上班流」首次完整曝光!不点鼠标,只写代码,PPT也当函数调
AI可以写代码、做PPT、生成图片,甚至梳理财务表格,早就屡见不鲜。 但人们关注的,往往只是结果:代码能不能运行? 图片有没有AI痕迹?
清华姚班团队,开源具身智能视觉语言动作(VLA)模型工具箱,打造行业通用技术底座
一群来自清华姚班、前旷视科技的核心人物,决定为具身智能领域建立一套通用准则,叫Dexbotic。 Dexbotic是基于PyTorch的视觉语言动作(Vision-Language-Action,VLA)模型工具箱。 目的是为具身智能领域的专业人士提供一站式VLA研究服务,由一家叫原力灵机(Dexmal)的具身智能公司开发。
美团杀入视频生成模型赛道,LongCat-Video 136亿参数媲美顶尖模型,效率提升10倍
又是美团! 美团最近在AI领域的开源动作,真是令人刮目相看。 刚刚,美团LongCat团队发布了LongCat-Video的基础视频生成模型,它拥有136亿的参数量,能在数分钟内生成720p、30帧每秒的高质量视频,并且在文本转视频、图像转视频和长视频续写等多个任务上都表现出色。
天下苦VAE久矣:阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖
近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。 然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题:训练复杂性:VAE旨在将高维图像压缩至低维隐空间,并能从中重建图像。 但其训练过程需要在压缩率和重建质量之间取得精妙平衡,本身就极具挑战。
刚刚,最佳VLA模型GigaBrain-0开源:世界模型驱动10倍数据,真机碾压SOTA
近日,在湖北武汉东湖高新区,极佳视界与湖北人形机器人创新中心完成战略合作签约,并联合发布端到端VLA「具身基础模型」GigaBrain-0。 这是国内首个利用「世界模型」生成数据实现真机泛化的视觉-语言-动作(VLA)基础模型,旨在通过世界模型为中心,无论在数据侧还是模型侧,彻底改变通用机器人大脑的开发方式。 GigaBrain-0拥有当前最先进的VLA模型架构,同时支持图像、点云、文本、本体状态的输入,输出结构化的任务规划和运动规划,并在大规模的数据上完成预训练,可以实现更精准的移动导航和长序列的复杂操作。
OpenAI一夜间重组!野心时间线来了!奥特曼最新采访首曝内部时间表:2028年打造出自动化AI研究员!10年内实现超级智能
编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)一夜之间,OpenAI大动作不断。 10月29日凌晨,Sam Altman 和 OpenAI 首席科学家 Jakub Pachocki共同出席了一场罕见的路线图直播,并在直播中表示,通过持续扩展深度学习,人类将在不到十年内实现超级智能。 图片此外他们还透露,OpenAI 内部正在朝着 2026 年 9 月实现“实习级 AI 研究助理”的目标前进,并计划在 2028 年打造出一名完全自动化的“真正的 AI 研究员”。
衡量企业AI成功的10个关键指标
这个过程并不容易。 根据Gartner的研究,近半数的AI决策者承认,他们的企业在估算和展示AI价值方面存在困难。 未能将AI项目与业务影响挂钩的IT领导者,可能会陷入AI炒作陷阱,例如资源过度扩张或项目臃肿。
掌握RAG系统的七个优秀GitHub存储库
译者 | 李睿审校 | 重楼检索增强生成(RAG)的生态系统在过去几年中迅速崛起。 如今,互联网上涌现出越来越多帮助开发人员构建RAG应用程序的开源项目。 而RAG是一种通过外部知识源增强大型语言模型(LLM)的有效方法。
零售商应如何应对AI购物者的崛起?
随着这些快速发展的态势,许多消费者正使用AI来研究产品,还有一小部分人将价格比较、选择甚至结账等环节委托给代理。 尽管很少有消费者会让智能体在没有最终确认的情况下购买商品,但代理仍可对客户旅程的大部分环节造成干扰。 这一最终交易环节的到来速度,超出了供应商的预期,并且可能很快就会在消费者购买中占据相当大的份额。
美国与韩国达成新协议 聚焦人工智能与量子技术合作
据美国官员透露,美国总统特朗普的政府计划与韩国签署一项新协议,旨在增强两国在人工智能、量子计算以及6G 通信技术领域的合作。 这项协议预计将在特朗普总统亚洲行期间签署,具体时间为周三,由白宫科技政策办公室主任 Michael Kratsios 代表美国签署。 图源备注:图片由AI生成根据协议的内容,双方将加强对人工智能技术的出口管制,并努力减轻科技企业在监管方面的负担,以便更好地管理数据在不同地理位置的存储和使用。
双管齐下:联邦学习防投毒攻击与梯度泄露,华南理工深北莫研究成果登上TMC与IoT
随着联邦学习在物联网(IoT)系统中的广泛应用,如何在保障数据隐私的同时有效抵御恶意攻击,已成为学界与产业界的共同难题。 针对这一问题,华南理工大学计算机学院与深圳北理莫斯科大学合作,提出了FedMSBA和FedMAR两种防御方法。 其中,FedMSBA利用混合差分隐私机制,结合逐层感知方法,为参与方提供了更佳的理论隐私预算。
OpenAI完成资本重组,奥特曼宣称28年实现完全自动化AI研究员
就在昨晚,OpenAI 宣布完成资本重组,并简化公司结构。 具体来讲,非营利组织仍然控制着营利性机构,并且在 AGI 到来之前能够直接获得大量资源。 这个非营利组织现在被称为 OpenAI 基金会(OpenAI Foundation),持有当前估值约为 1300 亿美元的营利性机构(下文的 OpenAI Group)的股权,持股26%,其余 47% 的股份由现任及前任员工和投资者持有。
逼近5万亿美元!英伟达GTC深夜爆拉市值,Vera Rubin超级芯片首露面
昨夜,英伟达让人眼花缭乱。 从大规模 GPU 部署和量子突破,到安全的 AI 工厂、机器人技术和自动驾驶,黄仁勋在 NVIDIA GTC Washington 的舞台上勾勒出了美国 AI 世纪 (America’s AI century) 的蓝图。 黄仁勋 Keynote 演讲后,英伟达股价应声上涨,今天涨幅已经达到 4.98%,这也使得英伟达的市值增加 2300 多亿美元,来到了前所未有的 4.89 万亿美元,此前甚至触及 4.94 万亿美元!
刚刚,OpenAI股改完成,非营利主体更名
刚刚,OpenAI宣布已完成资本结构重组。 这就意味着,OpenAI上市的道路已经铺平,而软银前几天刚批准的225亿美元投资,也将顺利到账。 具体来说,OpenAI重组后,非营利主体(即原本的OpenAI Nonprofit)改名为OpenAI Foundation,继续掌控营利实体——持有营利实体的26%股份,目前估值约1300亿美元。
高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA
时间序列预测来到真正意义上的“高维赛场”! 从原来几百维的小数据集到万维系统,时序预测模型面对真实世界,终于不用再“一碰就脆”。 这是来自全华人团队最新研究——业界首个专为高维时间序列预测设计的大规模基准Time-HD。
Cursor重新定义浏览器-AI代码编辑器的革命性突破
在AI技术飞速发展的今天,Cursor作为新一代AI代码编辑器,正在重新定义开发者的工作方式。 其最新推出的浏览器代理功能,让AI助手能够直接控制Web浏览器,实现应用测试、无障碍审计、设计转代码等复杂任务,为开发者带来了前所未有的自动化体验。 通过访问控制台日志和网络流量,AI能够深入调试问题并自动化执行全面的测试工作流程。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
DeepMind
特斯拉
场景
深度学习
Transformer
架构
Copilot
MCP
编程
视觉