应用

一句指令就能冲咖啡、倒红酒、锤钉子，清华具身智能CoPa「动」手了

近期，具身智能方向取得了诸多进展。从谷歌的 RT-H 到 OpenAI、Figure 联合打造的 Figure 01，机器人的交互性、通用性越来越强。如果未来机器人成为人们日常生活的助手，你期待它们能够完成哪些任务？泡一杯热气腾腾的手冲咖啡，整理桌面，甚至帮你精心安排一场浪漫的约会，这些任务，只需一句指令，清华的具身智能新框架「CoPa」都能完成。CoPa（Robotic Manipulation through Spatial Constraints of Parts）是清华叉院高阳教授机器人研究团队最新提出的具

3/18/2024 11:15:00 AM 机器之心

总结374篇相关工作，陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

大语言模型（Large Language Models, LLMs）在过去两年内迅速发展，涌现出一些现象级的模型和产品，如 GPT-4、Gemini、Claude 等，但大多数是闭源的。研究界目前能接触到的大部分开源 LLMs 与闭源 LLMs 存在较大差距，因此提升开源 LLMs 及其他小模型的能力以减小其与闭源大模型的差距成为了该领域的研究热点。LLM 的强大能力，特别是闭源 LLM，使得科研人员和工业界的从业者在训练自己的模型时都会利用到这些大模型的输出和知识。这一过程本质上是知识蒸馏（Knowledge,

3/18/2024 11:09:00 AM 机器之心

马斯克 xAI 宣布正在开源 Grok-1 模型，体量 3140 亿参数号称“全球最大”

感谢马斯克旗下 AI 初创企业 xAI 今天发布新闻稿，宣布正在开源 3140 亿参数的混合专家模型 Grok-1，该模型遵循 Apache 2.0 协议开放模型权重和架构，号称是“迄今为止全球参数量最大的开源大语言模型”。截至IT之家发稿，官方已经在 GitHub 中发布了 Grok-1 论文源代码，但还未开源模型主体。就在本月，马斯克宣布起诉 OpenAI 及其 CEO 阿尔特曼，声称 OpenAI 及其 CEO 阿尔特曼违背了公司成立的协议，该协议旨在推动 AI 技术朝着造福人类而非牟利的方向推进。马斯克对

3/18/2024 9:41:06 AM 漾仔

北京近期将发布第一代通用开放人形机器人本体

据北京青年报报道，年初，目标规模 100 亿元的北京机器人产业发展投资基金注册落地经开区，将助力北京打造世界领先的人形机器人产业发展高地。最近，北京人形机器人创新中心传来好消息，近期将发布第一代通用开放人形机器人本体。▲ 图源公众号“北京亦庄”报道称，人形机器人集成人工智能、高端制造、新材料等先进技术，有望成为继计算机、智能手机、新能源汽车后的颠覆性产品，深刻变革人类生产生活方式，重塑全球产业发展格局。作为人形机器人行业的聚合高点，2023 年年底，北京人形机器人创新中心有限公司正式成立，由人形机器人行业领军企事业

3/18/2024 8:37:26 AM 浩渺

消息称英伟达 Blackwell“B100”GPU 将配 192GB HBM3e 显存，B200 配 288GB 显存

感谢英伟达将在明日举行 GTC 2024 主题演讲，黄仁勋预计将宣布名为 Blackwell 的下一代 GPU 架构。据 XpeaGPU 爆料称，明天推出的 B100 GPU 将采用两个基于台积电 CoWoS-L 封装技术的芯片。CoWoS（晶圆基片芯片）是一项先进的 2.5D 封装技术，涉及将芯片堆叠在一起，提高处理能力，同时节省空间并降低功耗。XpeaGPU 透露，B100 GPU 的两个计算芯片将连接到 8 个 8-Hi HBM3e 显存堆栈，总容量为 192GB。值得注意的是，AMD 已经提供了 192GB

3/18/2024 8:32:17 AM 汪淼

第二波！2024年3月精选实用设计工具合集

大家好，这是 2024 年 3 月的第 2 波干货合集！这一期干货合集提供了 2 个颇为不错的灵感网站，一个是 404 网站内容合集，另一个则是一个专业的产品设计网站，此外这次合集当中还推荐了一款非常独特的配色工具，一款在线图片包装工具，一款在线 3D 服装设计工具，以及一项经过深入调教的 AI 角色生成服务。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、优质 404 页面大合集网站页面算是网页设计当中绕不开的一个组件。用户打开一个不存在的链接，404 页面会告诉用

3/18/2024 3:17:02 AM 陈子木

AI 程序员 Devin 卧底工作群修 bug！和 CTO 聊技术，网友：顶级码农水平

首个 AI 程序员 Devin，现身明星创业公司内部群。为解决一个技术问题，Devin 借用了其创造者的账号，与客户公司的 CTO 交流，并根据回复调整了代码方案。对话之专业，围观者看了直呼这个世界太疯狂。事情发生在办公软件 Slack，截图中的 akshat 是 AI 基础设施创业公司 Modal Labs 的 CTO Akshat Bubna。Modal Labs 也是 Devin 开发商 Cognition 的首批客户之一。此时 Devin 正披着他的创造者之一、IOI 金牌得主 Steven Hao 的马甲

3/17/2024 5:15:57 PM 远洋

中国电动汽车百人会2024丨毫末顾维灏：自动驾驶3.0时代，大模型重塑汽车智能化路线

“以大模型、大算力、大数据为代表的自动驾驶3.0时代已经到来，这些都是智能汽车新质生产力关键要素。毫末将以技术领先的‘极致性价比’智驾产品，助力车企智能化革命。”2024年3月17日，毫末智行CEO顾维灏受邀出席中国电动汽车百人会论坛（2024），并在现场发表主题演讲《自动驾驶3.0时代，大模型重塑汽车智能化路线》。顾维灏透露，毫末第二代HPilot极致性价比无图NOH智驾产品，已陆续进入交付状态。顾维灏出席中国电动汽车百人会论坛（2024）本届中国电动汽车百人会论坛（2024）以“巩固和扩大新能源汽车发展优势”为

3/17/2024 2:32:00 PM 新闻助手

Devin 第一手使用体验：完成度很高，开始编码就停不下来，但要替代程序员还很远

【新智元导读】Devin 到底是一个漂亮的 Demo，还是一个已经能替代程序员的智能体，使用体验怎么样，拿到测试资格的网友第一时间分享了自己的体验。由 10 枚 IOI 金牌在手的创业团队 Cognition AI 开发的全球首个 AI 程序员智能体 Devin，一发布就让科技圈坐立不安。在演示中，Devin 几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作，效果一点不比普通程序员差。但是，产品能力的边界在哪里，实际体验和演示时候有差距，还得看上手实测之后的效果。这位斯坦福的小哥在 Devin 发布的第

3/17/2024 8:58:23 AM 清源

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

Claude3，正式上线。这个由 OpenAI 分裂出去的兄弟公司 Anthropic，在悄然无息之间，就这么默默地把 Claude3 发了。没有所谓的发布会，没有什么华丽的舆论，就仅仅在 X 上发了个帖子。我发现现在的这些 AI 公司真挺有意思，都把 X 当成发布主阵地了。。。字很少，但是事挺大。一口气发了 3 个模型，Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。这个名字就取的...很有故事。 Opus 大概意思就是史诗级乐章，牛逼上天那种。 Sonnet

3/17/2024 8:11:25 AM

基于CPU服务器实现Llama2等应用落地，英特尔展示五代至强可扩展芯片实践

本周，英特尔数据中心产品技术媒体分享会在北京举行。多位英特尔技术专家为我们从多个角度，以实践应用的角度解析了最新一代服务器 CPU 产品的技术特性及独特价值。当前，AI 技术落地的速度正在加快，有全球调研结果显示，58% 的企业期待在近未来导入生成式 AI 等技术。预计到 2026 年，生成式 AI 的市场规模将达到 3000 亿美元，这其中包括硬件、软件、解决方案等。约会有 80% 以上的公司，会在 2026 年之前会导入某种程度的生成式 AI 以提高企业生产力。据预测，到 2026 年，有 50% 以上的边缘应

3/16/2024 9:07:00 PM 李泽南

微软“背刺”谷歌：训练 AI 上有搜索引擎和 YouTube 两大天然资源优势

欧盟委员会于今年 1 月开始针对 AI 领域展开调查，主要评估科技巨头们是否存在垄断行为。微软在接受问询时为了强调其没有反垄断行为，称谷歌在该领域有两大天然优势，该领域存在竞争。微软在接受欧盟委员会调查时强调，谷歌目前在训练 AI 方面有两大天然优势，其一是搜索引擎提供了海量资源，其二是 YouTube 平台，提供了约 140 亿个视频，谷歌可以利用这些数据训练 Gemini 模型，而其它 AI 开发商却无法访问。IT之家从报道中还获悉，微软为了进一步强调生成式 AI 领域存在竞争，表示谷歌和苹果很早就发力语音助手

3/16/2024 3:13:14 PM 故渊

用户吐槽微软 Copilot Pro 有偏执倾向，会单方面结束对话

微软昨日宣布，在全球 222 个国家和地区推出 Copilot Pro，并提供 1 个月免费试用，后续每月费用为 20 美元。不过根据网友的反馈，Copilot Pro 的表现无法令其满意，存在偏执、多疑等倾向。根据网友晒出的图片，Copilot Pro 在经历几段对话之后，语气会变得比较强硬，然后会单方面中断对话。IT之家附上截图如下：另一位 Reddit 用户也表达了自己的失望：我现在非常恼火。我本来表现得非常得体和友好，但它却关闭了我的对话，如果这有什么关系的话，我用的是手机，总之，我试着跟它解释为什么关闭对

3/16/2024 9:11:35 AM 故渊

微软现为 Copilot Pro 提供一个月免费试用

感谢微软宣布，随着 Pro 版本的扩展，Copilot 将开放给全球更多客户。现在，Copilot Pro 在 Copilot 可用的所有 222 个国家 / 地区均可使用。微软搜索和人工智能营销总经理 Divya Kumar 宣布：“Copilot 是您日常的人工智能伴侣，旨在为工作和生活的每个人带来生成式人工智能的力量。通过 Copilot，我们致力于为每个人提供提升创造力和工作效率的机会。”微软宣布将免费 Microsoft 365 Web 应用中的 Copilot 纳入 Copilot Pro 订阅中，并将

3/15/2024 11:47:30 PM 问舟

小爱同学开启多模态功能内测招募，适配小米 14、Redmi K70 系列手机等

感谢小米现已开启“小爱同学多模态功能内测”，拥有以下机型的用户可以在 3 月 23 日之前申请报名，将从 3 月 18 日到 4 月 15 日推送内测：Xiaomi MIX Fold 3Xiaomi MIX Fold 2Xiaomi MIX 4Xiaomi 14 系列 (含 14/14 Pro / 14 Ultra)Xiaomi 13 系列 (含 13/13 Pro / 13 Ultra)Xiaomi 12 系列 (含 12/12 Pro / 12 Pro 天玑版 / 12S / 12S Pro / 12S Ult

3/15/2024 5:58:49 PM 问舟

对话上交苏剑波教授：直面手语的「方言」多样性与系统「通用性」挑战｜GAIR live

作为上海交通大学自动化系的资深教授，苏剑波坚守着一条科研信条：研究工作需源源不断地注入活力。他曾阐释这一理念：“一个研究者在踏入某一科学领域时，应选取一个能够长期深耕、并随着理论及技术进步而能不断更新研究内容的主题，这才是研究者始终能保持学术活力的根本原因。 ”苏教授的研究领域覆盖了智能机器人理论与技术、多传感器信息与智能融合、机器学习与人机交互等科学研究持续的热点领域。

3/15/2024 5:20:00 PM 吴彤

对话南佛罗里达大学孙宇教授：当大语言模型用于机器人任务规划丨IJAIRR

现代化社会，哪些工作场景最需要机器人的帮助？在工业领域，有著名的机器人“四大家族”——发那科、ABB、安川、库卡，经过百余年的发展技术越发成熟，在工业场景已经得到深入而广泛的应用。相比之下，生活场景中的服务型机器人历史则短得多。

3/15/2024 4:03:00 PM 乔燕薇

腾讯联合清华大学、香港科技大学推出全新图生视频模型“Follow-Your-Click”：用户指哪动哪

感谢腾讯和清华大学、香港科技大学联合推出全新图生视频模型 “Follow-Your-Click”，目前已经上架 GitHub（代码四月公开），同时还发表了一篇研究论文（IT之家附 DOI:2403.08268）。这款图生视频模型主要功能包括局部动画生成和多对象动画，支持多种动作表达，如头部调整、翅膀拍动等。据介绍， Follow-Your-Click 可以通过用户的点击和简短动作提示生成局部图像动画。用户只需点击对应区域，加上少量提示词，就可以让图片中原本静态的区域动起来，一键转换成视频，比如让物体微笑、跳舞或飘动

3/15/2024 3:49:15 PM 问舟

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉