资讯列表
一年半融资七轮超10亿!自变量机器人再获美团数亿元A轮加码
据《智能涌现》消息,成立不到一年半的具身智能公司「自变量机器人」(X Square Robot)近日完成数亿元A轮融资,由美团战投领投,美团龙珠跟投。 本轮资金将主要用于加速其全自研端到端通用具身智能大模型与机器人本体的同步迭代,并推动未来在多个应用场景的智慧化方案合作与落地。 值得注意的是,在本次A轮融资前,自变量机器人还完成了由光速光合、君联资本领投的数亿元Pre-A 轮融资(今年2月披露),以及由华映资本、云启资本、广发信德投资的数亿元Pre-A 轮融资。
腾讯发布全新 AI 框架 PrimitiveAnything:颠覆 3D 形状生成方式!
在计算机视觉和图形学中,3D 形状的抽象是一个基础且关键的研究领域。 通过将复杂的3D 形状分解为简单的几何单位,研究者能够更好地理解人类视觉感知的机制。 然而,现有的3D 生成方法通常无法满足机器人操作或场景理解等任务对语义深度和可解释性的要求。
FDA 宣布使用 AI 技术加速药品审批流程
美国食品药品监督管理局(FDA)近日宣布,将立即在其所有中心引入人工智能(AI)技术,以缩短药品审批的时间。 此次决定是在 FDA 完成了一项针对科学审查员的生成性 AI 试点后做出的。 FDA 表示,借助这项 AI 工具,科学家们可以减少大量重复性、单调的工作,从而提升审核效率。
MCP 与创新悖论:开放标准为何能拯救 AI
模型上下文协议(MCP)的出现,预示着人工智能应用生态系统即将发生根本性变革。 由 Anthropic 于2024年11月推出的 MCP,旨在规范 AI 应用程序与其训练数据之外的世界进行交互的方式。 正如 HTTP 和 REST 为 Web 应用和服务间的连接奠定了基础,MCP 正在为 AI 模型与各种工具的连接建立统一的标准。
文档智能新突破:ContextGem开源工具上线,几行代码实现专业级文档解析
一款备受期待的AI文档处理工具ContextGem日前正式亮相,凭借其强大的结构化数据提取能力和极简编程体验,迅速吸引了开发者社区的广泛关注。 作为完全免费、开源的大型语言模型框架,ContextGem通过简洁代码实现复杂文档分析,核心优势在于精准理解用户意图,自动定位并提取文档中的关键信息。 ContextGem的设计理念围绕简化文档处理流程展开。
全球首款AI智能浏览器Fellou发布:一键搞定研究、发帖、邮件,效率飙升5倍!
5月11日,Fellou正式发布,号称全球首款Agentic浏览器,以其强大的AI自动化能力引发行业热议()。 不同于传统浏览器,Fellou不仅能搜索和浏览,还能思考、规划并执行复杂任务,从深度研究到跨平台工作流一键完成。 AIbase观察到,Fellou的发布标志着浏览器从被动工具向主动数字助手的转型,为研究人员、营销人员和开发者提供了前所未有的生产力提升。
Cursor 0.50版本重磅更新,简化定价与增强AI编程体验
Cursor于2025年5月9日推出0.50版本重大更新,带来了简化的定价模式、全面升级的Max模式以及一系列功能增强()。 此次更新聚焦于提升AI编程效率,新增跨文件代码建议、后台代理和多代码库支持等功能,进一步巩固了Cursor作为AI驱动代码编辑器的领先地位。 AIbase观察到,开发者社区对新版本的响应速度和多任务处理能力给予高度评价。
谷歌推出面向 13 岁以下儿童Gemini AI聊天机器人
谷歌最近宣布,将推出其新的 Gemini 人工智能(AI)聊天机器人,专门面向13岁以下的儿童。 这个新产品将在未来一周内在美国和加拿大上线,预计今年晚些时候也会在澳大利亚推出。 值得注意的是,这款聊天机器人将仅通过谷歌的家庭链接账户提供,这意味着家长可以对儿童的使用进行一定的控制。
谷歌再破界限:Gemini 2.5 Pro实现6小时视频理解,AI视觉能力迈入新纪元
谷歌Gemini2.5Pro视频理解能力再升级,这款旗舰AI模型不仅支持长达6小时的视频分析,还拥有高达200万Token的超大上下文窗口,同时首次实现通过API直接解析YouTube链接。 官方数据显示,该模型在VideoMME基准测试中达到84.7%的准确率,与行业顶尖水平的85.2%仅有一线之差,彰显了其强劲实力。 这项突破性技术现已通过Google AI Studio向开发者开放体验。
微软研究:API 代理速度更快,但 GUI 代理更灵活
近日,微软的研究团队对 API 代理和 GUI 代理进行了对比研究,发现这两种代理各有特点,可以根据不同需求进行合理选择。 API 代理通过可编程接口与软件进行交互,而 GUI 代理则模拟人类的操作方式,通过点击按钮和导航菜单来完成任务。 例如,若要安排一个活动,API 代理可能只需一次函数调用,而 GUI 代理则需要打开日历应用,逐步填写相关信息。
特朗普解除版权局局长职务,因拒绝支持 AI 企业采集版权作品
美国总统特朗普近期解除版权局局长希拉・珀尔穆特(Shira Perlmutter)的职务,此举引起了广泛关注。 根据 CBS 新闻和 Politico 的报道,众议员乔・莫雷尔(Joe Morelle)对此表示强烈反对,称这是一场 “公然、前所未有的权力夺取,毫无法律依据”。 他指出,珀尔穆特的解职与她拒绝支持特斯拉创始人埃隆・马斯克(Elon Musk)将大量版权作品用于人工智能训练的请求密切相关。
高一致性、强控制力,腾讯发布多模态视频生成利器 HunyuanCustom
腾讯近日正式开源其全新多模态定制视频生成框架——HunyuanCustom,标志着AI视频创作进入更高自由度与精准控制的全新阶段。 该框架基于腾讯自研的 HunyuanVideo 打造,主打**“主体一致性”与“多模态灵活输入”**,致力于实现视频内容与输入素材高度匹配的个性化生成。 HunyuanCustom 的核心优势在于其强大的多模态输入能力:支持用户通过文本描述、单图或多图图像、参考音频甚至已有的视频片段作为输入,系统可综合这些信息生成定制化视频。
用户提问方式影响AI模型准确性,简洁回答易导致错误信息
近期,法国人工智能研究机构 Giskard 进行了一项关于语言模型的研究,结果表明,当用户要求简短回答时,许多语言模型更可能生成错误或误导性的信息。 该研究使用了多语言的 Phare 基准测试,专注于模型在现实使用环境中的表现,尤其是它们所产生的 “幻想” 现象。 幻想指的是模型产生虚假或误导性内容的情况,而先前的研究显示,这一问题占据了大型语言模型所有记录事件的三分之一以上。
OpenAI与微软正商讨修改双方合作条款
根据英国《金融时报》的报道,OpenAI 和微软正在商讨修改双方的合作条款,这一调整可能为 ChatGPT 的开发公司打开未来上市的大门,并确保微软能持续获取前沿的人工智能技术。 此次谈判不仅关乎 OpenAI 的商业模式,也涉及到微软在这项技术领域的重要投资。 据知情人士透露,微软正在考虑放弃其在 OpenAI 新营利性业务中的部分股权,以换取在2030年一项重要合同到期后,能够使用 OpenAI 新开发的人工智能模型。
自变量机器人完成数亿元 A 轮融资,由美团战投领投
公众号《智能涌现》今日发文,具身智能公司「自变量机器人」近日完成数亿元 A 轮融资,由美团战投领投、美团龙珠跟投。该文自变量机器人被官方转发。
生成式人工智能驱动的数据工程:现代数据工程师至少应掌握哪些技能
生成式人工智能 (GenAI) 已从最初的好奇发展成为数据工程工作流程中的日常工具:我们现在只需一个精心设计的指令,就能起草架构、生成模式、启动基础设施模板,甚至生成隐私保护数据。 本文将我的经验与当前的行业实践相结合,提炼成一份循序渐进的参考指南,供想成为数据工程师或处于职业生涯中期的人士参考。 为什么它今天如此重要?
CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene,从视频到 3D 的桥梁,一步到位!
清华大学的研究团队首次提出了一种一步式视频扩散技术 VideoScene,专注于 3D 场景视频生成。 它利用了 3D-aware leap flow distillation 策略,通过跳跃式跨越冗余降噪步骤,极大地加速了推理过程,同时结合动态降噪策略,实现了对 3D 先验信息的充分利用,从而在保证高质量的同时大幅提升生成效率。 实验证明VideoScene可弥合从视频到 3D 的差距。
ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot,让表情包、动漫人物、玩具等“开口说话”
今天和大家分享同济大学的最新研究FaceShot: 一举打破肖像动画模型“驱动真人”的局限,FaceShot 的动画效果可应用于各个领域的角色,包括 3D 动漫、表情符号、2D 动漫、玩具、动物等等。 每个角色都能流畅地跟随行车视频的面部动作,同时保留其原始身份,从而产生出色的动画效果。 FaceShot 的可视化结果。