资讯列表
杭州六小龙开源新模型SpatialLM,助力机器人瞬间理解 3D 世界!
最近,杭州的科技公司群核科技再次引起了行业关注,因其开源的空间理解模型 SpatialLM 被谷歌在一篇论文中点名感谢。 这个模型的创新之处在于,它能让机器人通过一段普通的视频理解物理世界的几何关系,标志着机器人训练领域的一次重大突破。 SpatialLM 的核心功能是将手机拍摄的视频转化为三维空间布局信息。
ChatGPT 因“诽谤性”捏造儿童谋杀故事遭隐私投诉
OpenAI 最近面临了一起来自挪威的隐私投诉,主要针对其人工智能聊天机器人 ChatGPT 经常产生虚假信息的问题。 这起案件由隐私权倡导组织 Noyb 支持,投诉者是一位名为阿尔夫・哈尔马尔・霍尔门的个人。 他发现 ChatGPT 竟然错误地声称他因谋杀两个孩子和试图杀死第三个孩子而被定罪,令他感到震惊和愤怒。
华为诺亚综述:生成式模型如何用于决策?
机构:华为诺亚决策推理实验室作者:李银川、郝建业等人近年来,生成模型在内容生成(AIGC)领域蓬勃发展,同时也逐渐引起了在智能决策中的应用关注。 由于生成模型能够处理复杂的数据分布,并具备强大的建模能力,它们可以被引入决策系统,用于生成引导代理进入高奖励状态的轨迹或中间子目标。 本综述系统性地梳理了生成模型在决策任务中的应用,并提供了全面的分类框架。
国产深海小型机器人成功实现万米深海多模态运动,登上国际学术顶刊
近日,由北京航空航天大学联合中国科学院深海研究所及浙江大学共同研发的深海小型多模态机器人,成功在国际学术顶刊《科学・机器人》上发表。 这款机器人在海洋探索和科研领域具有里程碑式的意义,特别是在深海环境下的应用。 这款深海机器人长不到50厘米,重量仅为1500克,令人惊叹的是,它能在深达万米的海底进行多模态运动。
运动可控!阶跃星辰 Step-Video-TI2V 图生视频模型开源
上海阶跃星辰智能科技有限公司宣布开源其最新的图生视频模型——Step-Video-TI2V。 这一模型是基于30B参数的Step-Video-T2V训练而成,能够生成102帧、5秒、540P分辨率的视频,具有运动幅度可控和镜头运动可控两大核心特点,尤其在动漫效果方面表现出色。 与现有的开源图生视频模型相比,Step-Video-TI2V不仅在参数规模上提供了更高的上限,其运动幅度可控能力还能平衡视频生成结果的动态性和稳定性,为创作者提供了更灵活的选择。
李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了
当我们看到一张猫咪照片时,大脑自然就能识别「这是一只猫」。 但对计算机来说,它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片,实际上是一个包含 300 万个数字的数据集(1000×1000×3 个颜色通道)。 每个数字代表一个像素点的颜色深浅,从 0 到 255。
一个算法让LLM创新能力暴增,原来是AI学会了进化
如果你让当今的 LLM 给你生成一个创意时钟设计,使用提示词「a creative time display」,它可能会给出这样的结果:或许我们能在其中看到一些创新点,但整体来说这些设计并无特别出彩之处,依然还在预期之内。 但近日的一项研究成果却可以让 LLM 设计出下面这些让人眼前一亮的时钟,而使用的提示词却和上面的一样:这是怎么做到的呢? 简而言之:一种基于 LLM 的进化算法。
剑桥团队革新RNA速率分析:AI算法突破基因动态追踪
编辑丨&RNA 速率模型利用剪接和未剪接的 RNA 计数中包含的时间信息来推断转录动力学,但现有的速率模型通常依赖于粗略的生物物理简化或数值近似来求解基础常微分方程(ODE)。 英国剑桥大学主导的团队提出了 cell2fate,它允许以完全贝叶斯方式求解生物物理学上更准确的模型。 通过将 RNA 速率解决方案分解为模块,cell2fate 在 RNA 速率和统计降维之间建立了生物物理联系。
迄今为止最大最全面!人类专家级准确性,AI数据驱动的生物医学知识图谱
编辑 | 萝卜皮为了应对生物医学研究中科学出版物和数据的快速增长,知识图谱(KG)已成为整合大量异构数据以实现高效信息检索和自动知识发现的重要工具。 然而,将非结构化的科学文献转化为知识图谱仍然是一项艰巨的挑战,之前的方法无法达到人类水平的准确率。 在最新的研究中,佛罗里达州立大学(Florida State University)和 Insilicom LLC 的研究人员使用了在 LitCoin 自然语言处理挑战赛 (2022) 中获得第一名的信息提取流程,利用所有 PubMed 摘要构建了一个名为 iKraph 的大规模知识图谱。
谷歌Chrome浏览器即将整合Gemini AI助手,操作更便捷!
在互联网科技的快速发展中,谷歌 Chrome 浏览器又将迎来一项重要更新。 根据科技媒体 Windows Latest 的最新消息,谷歌计划将其 Gemini 人工智能助手深度整合进 Chrome 浏览器,这一举措将让用户享受到更便捷的在线体验。 Gemini AI 助手的整合将类似于微软 Edge 浏览器中的 C opilot 功能。
LG开源EXAONE Deep模型,号称韩国首个自研推理AI模型
LG AI Research 近日将自家号称“全球瞩目”的EXAONE Deep推理AI模型开源了!它最大的亮点在于其“推理能力”。 简单来说,它能像一个聪明的侦探一样,独立制定假设并进行推理验证,从而做出自主决策。 这标志着AI正在迈入“Agentic AI(主动式AI)”的新纪元,以后AI可能真的要开始“自己长脑子”了!
导致大多数企业AI项目失败的致命错误
在企业中的某个领域,或许正有一个AI项目正在走向失败,可能它是一个旨在将销售额提升30%的推荐引擎,可能它是一个旨在大幅减少停机时间的预测性维护系统,又可能是一个本打算彻底改变响应时间的客户服务聊天机器人。 这些雄心勃勃的计划上落满的灰尘,代表的不仅仅是资源的浪费,还有期望的破灭,这让未来推动创新变得更加困难。 期望与现实之间的差距把AI项目想象成冰山。
Atlas机器人越来越像人了!强化学习加持爬行、翻跟头、跳街舞,已安排进厂打工
最近,国内各种人形机器人轮番上阵,效果一个比一个炸裂。 作为人形机器人的老牌玩家,波士顿动力终于还是出手了! 就在昨天,他们放出了一段长达一分钟的演示,只见Atlas不仅能跑、能爬,而且还能翻跟头、跳街舞。
HuggingFace、a16z向白宫谏言,激辩OpenAI:开源才是美国最大的AI竞争优势,垄断不是!
编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)近日OpenAI提交有关禁止使用中国模型的提案引起了大家的注意。 不过这也只是提议,包括美国在内的很多企业和大佬对此表示并不赞同——在华盛顿的政策环境中,越来越多地呼吁对人工智能进行最低限度的监管,而Hugging Face则向特朗普政府提出了截然不同的观点:开源和协作的人工智能开发可能是美国最强大的竞争优势。 目前,Hugging Face已经在自家平台上拥有超过 150 万个公共模型,它已向白宫人工智能行动计划提交了建议,认为开源模型的最新突破表明,它们可以以极低的成本达到甚至超越封闭商业系统的能力。
生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?
随着人工智能技术日益成熟,社会各界对AI或机器人能否学习并遵循社会规范的问题越来越关注。 从早期的科幻小说到如今的现实应用,人类始终期望机器能够理解并内化这些根植于社会生活中的「规范」。 随着视觉语言模型(VLMs)不断进步,研究者们陆续推出了诸多基准和数据集,用以评估其第一视角下的视频理解能力。
腾讯超预期成绩单发布!双位数增长,微信收入翻倍!刘炽平:资本支出增长三倍,猛追AI基建,今年将支出千亿投入AI!
出品 | 51CTO技术栈(微信号:blog51cto)3月19日,腾讯公布了2024财年Q4的成绩单。 收入同比增长11%,而利润同比增长90%。 可以说非常亮眼:收入和利润都超出了最高预期,以下是腾讯在2024年第四季度与Refinitiv估计相比的表现:收入:1724亿元人民币(23.9亿美元),预期为168.9亿元。
宇树机器人侧空翻惊呆网友:“我**想要一个!”
这下特效视频和机器人实拍真的傻傻分不清楚了…前几天机器人卷的还是前后空翻呢,宇树现在连侧空翻都曝出来了。 干拔起跳,落地都不带晃的:以上动作,由宇树的Unitree G1呈现,就是身高1米3,售价9.9万起的那个型号。 宇树官方是酱婶描述的:这是世界上第一款征服站立侧空翻的人形机器人。
OpenAI史上最贵模型来了!比DeepSeek贵270倍,100万输出token 600美元
比DeepSeek-R1贵270倍,OpenAI史上最贵模型来了! 就在刚刚,OpenAI上线了推理模型o1-pro的API。 本来大家还挺高兴,结果一看到价格,悬着的心终于死了。