AI在线 AI在线

资讯列表

机器狗能打羽毛球:仅靠强化学习从 0 自学,还会自己移步

该研究在各种环境中进行了大量实验,验证了四足机器人预测羽毛球轨迹、有效导航服务区域,以及对人类球员进行最精准打击的能力。证明了足式移动机器人在复杂和动态的体育场景中应用的可行性。
5/30/2025 5:19:00 PM
汪淼

人工智能能耗有望在2025年底超越比特币挖矿

根据一项新的分析,人工智能的电力消耗预计将在2025年底前接近全球数据中心总电力消耗的一半,这意味着人工智能的能耗将很快超越比特币挖矿。 该分析由阿姆斯特丹自由大学环境研究所的博士生 Alex de Vries-Gao 进行,他曾跟踪研究过加密货币的电力消耗及其环境影响,并在他的网站 Digiconomist 上发布了相关数据。 目前,人工智能已经占据了数据中心电力消耗的高达五分之一。
5/30/2025 5:00:54 PM
AI在线

小米多模态大模型 MiMo-VL 开源,官方称多方面领先 Qwen2.5-VL-7B

官方表示,其在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任务上比肩专用模型,为 Agent 时代而来。
5/30/2025 4:06:03 PM
清源

华为发布昇腾大模型:无GPU训练高数大题仅需2秒!

最近,华为通过其新推出的 “昇腾 Pangu Ultra MoE” 系统展示了一个令人惊叹的突破:一个近万亿参数的 MoE 大模型在短短2秒内就能理解并解答一道高等数学题。 而这一切都在没有使用 GPU 的情况下实现,显示出华为在自主可控的国产算力和模型训练方面的强大能力。 在技术层面,华为的团队成功提升了训练系统的整体性能,通过智能选择并行策略和优化计算通信,大幅提高了集群的训练效率。
5/30/2025 4:00:54 PM
AI在线

元宝打通腾讯地图 移动版、网页版已正式上线

近日,元宝与腾讯地图正式实现打通,为用户带来更为精准和便捷的地点搜索及导航服务。 依托腾讯地图的强大功能,元宝在地点搜索方面的表现更加出色,能够满足用户多样化的需求。 现在,当用户询问“附近有修鞋的吗”或是“附近人均百元的粤菜馆有哪些”时,元宝能够结合地图信息,迅速给出准确的推荐。
5/30/2025 4:00:54 PM
AI在线

新型人工智能检测可预测前列腺癌患者是否能从药物中获益

近日,国际医学界传来令人振奋的消息,一种新开发的人工智能(AI)工具可以预测哪些前列腺癌患者能够从一种能够将死亡风险降低一半的药物 —— 阿比特龙(abiraterone)中获益。 这种药物被称为前列腺癌治疗的 “游戏规则改变者”,在100多个国家中成为男性最常见的癌症治疗选择,已帮助数十万名晚期前列腺癌患者延长了生命。 然而,一些国家,尤其是英国,对于尚未扩散的前列腺癌患者并未广泛提供这款 “惊人的” 药物。
5/30/2025 4:00:54 PM
AI在线

美团开放AI代码工具,零代码实现全栈能力,项目负责人揭秘架构细节

一句话,呈所想。 谁都没有想到,如此实用的 AI 代码生成工具,竟是出自美团。 上周,有媒体曝出了美团的 AI 零代码工具 NoCode,这是一款无需编程背景和经验,仅通过自然语言和对话形式即可快速生成应用的工具。
5/30/2025 3:59:41 PM

多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。 今天我们介绍的这个名叫 LaViDa,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。 现目前,几乎所有流行的 VLM 都是基于大型语言模型(LLM)构建的,而这些模型采用的范式是自回归(AR),即按照从左到右的顺序逐一生成 token。
5/30/2025 3:54:16 PM

大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI

本文第一作者为上海交通大学计算机学院副教授刘卫文,研究方向为大模型智能体,大语言模型,个性化算法等。 近年来,随着大语言模型的快速发展,基于其构建的大模型智能体(LLM Agents)正逐步从技术演示走向实际应用部署。 然而,真正实现规模化应用仍面临诸多瓶颈。
5/30/2025 3:53:27 PM

谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍

在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。 谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒的生成速度震惊学界,展现了扩散模型在并行生成上的潜力。 然而,开源扩散 LLM 却因缺乏 KV 缓存机制和并行解码质量衰退,实际推理速度长期被自回归模型压制.近日,NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM,以无需训练的即插即用加速方案,实现了推理速度的突破!
5/30/2025 3:52:05 PM

实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工

作者丨王悦编辑丨陈彩娴上个月,字节跳动旗下 Agent「扣子空间」上线之初,曾经一度被挤爆服务器,全网分享内测码。 经过一个月时间的沉淀,AI 科技评论发现了扣子空间最新上线了一个新玩法—— 一键生成播客。 相比于主打任务规划与执行的通用 Agent,AI 播客 Agent 需要的能力确实更丰富,内容理解、多模态融合、语音合成、情感表达、多角色模拟、对话逻辑等能力都不可或缺,这对多模态性能有很大挑战。
5/30/2025 3:44:00 PM
陈淑瑜

OpenAI 坚决反击马斯克:法院裁定请求毫无依据

据路透社报道,OpenAI 近日向法院提出申请,要求继续对特斯拉创始人埃隆・马斯克进行反诉。 OpenAI 在法庭文件中表示,马斯克请求驳回其反诉的动议 “毫无事实依据”。 这一案件的持续发酵,再次引发了公众的关注。
5/30/2025 3:00:54 PM
AI在线

Figure完成史上最大重组:三大技术团队合并成AI核心小组Helix

人形机器人公司Figure今日宣布完成公司历史上规模最大的组织重组,CEO Brett Adcock通过推特透露,上周已将三个独立技术团队合并进新成立的AI小组Helix,旨在打破部门壁垒,加速人形机器人的商业化进程。 以AI模型命名的战略整合新成立的Helix小组以Figure三个月前推出的首个VLA(视觉-语言-行动)具身模型Felix的核心技术命名,凸显了AI在公司战略中的核心地位。 据Figure此前发布的资料显示,Helix技术在多个关键领域取得了突破性进展,专门为Figure人形机器人提供通用智能控制能力,是实现机器人自主操作的关键技术基础。
5/30/2025 3:00:54 PM
AI在线

Google 的 Agent2Agent(A2A)框架详解

作者 | Nirdiamant编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)MCP,市面上已经有不少干货解读了,但作为经常被拿来对比的 A2A,内容却很少,今天为大家详细解读下 A2A 的架构。 想象你走进一个繁忙的办公室,才华横溢的专家们正在处理各类复杂项目。 一个角落里,研究分析师在挖掘数据;旁边,设计专家在绘制视觉方案;另一边,物流协调员在安排货运。
5/30/2025 2:59:36 PM
云昭

苹果联合推出 AI 交错推理方法,Qwen2.5 模型响应速度快 80%、准确率提高 19.3%

苹果公司携手杜克大学,提出交错推理(Interleaved Reasoning)的全新强化学习(Reinforcement learning,RL)方法,进一步提升大语言模型的推理能力。
5/30/2025 2:45:12 PM
故渊

Yandex 发布最大音乐推荐开源数据集 Yambda

俄罗斯搜索巨头Yandex发布全球最大音乐推荐开源数据集Yambda,含47.9亿条匿名用户交互数据,覆盖939万首歌曲,助力开发者打造智能音乐服务。数据集分三种规模,最大需85GB存储空间。#音乐科技# #AI推荐#
5/30/2025 2:40:08 PM
准泽(实习)

Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑

Anthropic 昨日(5 月 29 日)发布博文,宣布推出“电路追踪”(Circuit Tracer)开源工具,以图形化方式,追踪并展示 AI 大语言模型的内部思维过程。
5/30/2025 2:36:15 PM
故渊

专治AI生图「人脸崩坏」,8倍速碾压GPT!新版FLUX.1多方位刷新SOTA

用AI生成&编辑图片时,想生成一套完整故事模板,结果主角「变脸」比翻书还快,这可怎么办? 别慌,全新图像模型FLUX.1 Kontext来了! 支持上下文内图像生成,可以同时使用文本和图像进行提示,并能够无缝提取和修改视觉概念,从而生成新的、连贯的图像。
5/30/2025 2:28:10 PM
新智元