资讯列表

分类

标签

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提升32%

近年来，视觉-语言-动作（VLA）模型在机器人操作任务中大放异彩，成为推动通用机器人操作的重要引擎。但现有的VLA模型，大多只以2D信息作为输入，且需要大量的机器人数据进行微调；反观以PerAct，RVT-2为代表的3D操作策略，通常仅需要10条轨迹就能够取得不错的效果，因此，一个很自然的想法是，是否能将现有的2D VLA升级为3D VLA，使其同时兼具2D VLA的效果以及3D操作策略的效率？中科院自动化所的研究人员提出的BridgeVLA给出了肯定的回答！

6/27/2025 9:10:17 AM

Black Forest震撼开源FLUX.1 Kontext [dev]：媲美GPT-4o的图像编辑

Black Forest Labs正式宣布，其全新图像编辑模型 FLUX.1Kontext [dev] 现已开源，引发了AI社区的广泛关注。这一模型作为FLUX.1系列的最新成员，以其强大的图像编辑能力和高效性能被誉为可媲美GPT-4o的开源替代方案。 FLUX.1Kontext [dev] 基于12亿参数的流匹配变换器架构，专为图像编辑任务设计，支持消费级硬件运行，为创作者、开发者和研究人员提供了前所未有的灵活性。

6/27/2025 9:00:42 AM AI在线

开源神器来了！FLUX.1 Kontext [dev]挑战GPT-4o，图像编辑进入新时代

近日，Black Forest Labs宣布正式开源其最新图像编辑模型FLUX.1Kontext [dev]，这一拥有120亿参数的AI模型被誉为对标OpenAI GPT-4o和Google Gemini的强力竞争者。据AIbase了解，该模型专为图像编辑任务设计，兼具高性能与易用性，不仅能在消费级硬件上高效运行，还为用户提供了前所未有的图像编辑体验。多场景精准编辑，角色一致性无与伦比FLUX.1Kontext [dev]以其强大的迭代编辑、角色保持以及局部与全局精细控制能力脱颖而出。

6/27/2025 9:00:41 AM AI在线

Meta 挖角 OpenAI 顶级研究员，AI 超级智能团队再添猛将

在 AI 领域的竞争日益激烈之际，Meta 公司于今天凌晨宣布，成功挖角 OpenAI 的顶级研究员 Trapit Bansal，加入其新成立的 AI 超级智能部门。根据 Techcrunch 的消息，OpenAI 的发言人 Kayla Wood 证实了 Bansal 的离职，Bansal 的 LinkedIn 页面也显示他已不再是 OpenAI 的员工。图源备注：图片由AI生成，图片授权服务商MidjourneyTrapit Bansal 自2022年起在 OpenAI 工作，他被认为是该公司强化学习的重要推动者之一，同时也是 OpenAI 首个 AI 推理模型 o1的基础贡献者。

6/27/2025 9:00:41 AM AI在线

谷歌AlphaGenome横空出世！40亿年生命代码一键破解，或再夺诺奖

基因组，宛如生命的蓝图，藏在我们每一个细胞之中。这套完整的DNA指令集，主导着生命体从外观功能到生长繁殖的几乎每一个方面，甚至是对疾病抵御的能力。 2003年，人类基因组测序完成，让人类首次窥见了DNA的全貌。

6/27/2025 8:56:51 AM

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

本文由中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生，主要研究方向为基础模型的优化、泛化和可扩展性理论，导师为李崇轩副教授，论文为其在字节跳动Seed实习期间完成。第二作者张新雨是字节跳动研究员，主要研究方向为视觉生成模型。

6/27/2025 8:50:40 AM

北大发布学术搜索评测ScholarSearch：难倒一众DeepResearch的“开卷考试”

LLMs能当科研助手了？北大出考题，结果显示：现有模型都不能胜任。北京大学DS-Lab发布ScholarSearch，这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集，包含223道高难度的学术检索题目及其答案。

6/27/2025 8:47:12 AM

Nature报道：谷歌新模型1秒读懂DNA变异！首次统一基因组全任务，性能碾压现有模型

谷歌DeepMind Alpha家族又双叒登上Nature报道，这次瞄准的是DNA变异。现在只需1秒，就能精确定位基因组序列变异。据Nature最新报道，谷歌DeepMind团队目前推出了突破性生物模型AlphaGenome。

6/27/2025 8:45:31 AM

推理越多，幻觉越重？多模态推理模型的「幻觉悖论」

在多模态大模型的飞速发展中，R1 系列多模态推理模型凭借显式的长链推理机制，在复杂任务中屡屡突破传统「快思考」范式的性能瓶颈。然而，研究发现，随着推理链条的加长，这类模型的视觉感知能力却呈现出明显下滑的趋势，逐渐转而依赖语言先验进行「脑补」，生成内容也越来越容易脱离图像本身，甚至出现凭空捏造的幻觉现象。这一「推理增强—感知削弱」的悖论，凸显了当前多模态推理模型在推理能力与感知准确性之间面临的平衡挑战。

6/27/2025 8:40:00 AM

消息称 DeepSeek-R2 AI 模型开发进程因美国当局英伟达 H20 芯片出口限制而延迟

由于美国当局对英伟达H20芯片的出口限制，DeepSeek R2 AI模型的开发进程被迫延迟。这不仅影响了新模型的研发，也对现有R1模型的实际部署造成困扰。#AI芯片# #DeepSeek#

6/27/2025 8:09:47 AM 漾仔

大语言模型热潮与现实的差距：CISO应关注什么

从AI应用中的风险，如中毒的训练数据和幻觉现象，到AI赋能的安全措施，再到深度伪造、用户错误以及新型AI生成的攻击技术，网络安全行业正充斥着令人恐惧的安全威胁，这些威胁让CISO们不堪重负。例如，在2025年4月的RSA会议期间及之后，与会者纷纷对AI带来的恐惧、不确定性和怀疑(FUD)表示强烈不满，尤其是供应商方面的表现。其中一位是Netflix的信息风险工程师Tony Martin-Vegue，他在RSAC会议后的采访中告诉记者，虽然AI的炒作和潜力很大，但无法阻止其发展，不过有方法可以穿透炒作，并在最关键的地方应用基本控制措施。

6/27/2025 7:12:00 AM Deb Radcliff

合成数据创造商业价值的七种方式

今年，几乎所有企业都在迅速采用AI，但大多数企业部署的都是与他人相同的平台，这些平台来自相同的供应商。基于公司独特需求创建定制化的AI解决方案需要数据，不幸的是，公司手头的数据可能存在重大缺口，在使用时可能涉及隐私或合规性问题，此外，数据量可能也不足。合成数据可以填补这一缺口，帮助企业从其AI部署中找到真正的商业价值。

6/27/2025 7:10:00 AM Maria Korolov

裁员潮下，AI开始重塑IT就业格局

随着越来越多的公司将AI视为裁员的主要驱动力，IT专业人士不禁开始怀疑，职业焦虑是否正在成为现实，或者这个行业是否只是在适应另一个新的范式。在新冠疫情期间，亚马逊是众多迅速扩大招聘规模以满足新封闭商业范式下需求的科技公司之一，其他寻求支持全远程工作队伍的企业也纷纷效仿，科技行业的招聘和薪资水平达到了前所未有的高度。但这种繁荣并未持续太久，亚马逊与谷歌、Meta、微软以及其他知名企业一起，在2022年集体裁员超过10万人，以适应疫情后逐渐复苏的世界。

6/27/2025 7:00:00 AM Sarah White

SCIENCEBOARD：构建智能体驱动的科学探索新「环境」

大家好，我是肆〇柒。今天，我们来聊聊 SCIENCEBOARD，这是一个由香港大学、上海人工智能实验室、复旦大学、北京大学、南京大学、华东师范大学和耶鲁大学等，多所知名高校和研究机构共同打造的创新平台。它致力于在多域科学工作流中评估多模态自主智能体，为推动 AI 驱动的科学发现提供了全新的方法和工具。

6/27/2025 7:00:00 AM 肆零柒

一文彻底搞懂智能体Agent基于ReAct的工具调用

前言AI智能体是指具备一定自主性、能感知环境并通过智能决策执行特定任务的软件或硬件实体。它结合了人工智能技术（如机器学习、自然语言处理、计算机视觉等），能够独立或协作完成目标。基于大语言模型（LLM）的Function Calling可以令智能体实现有效的工具使用和与外部API的交互。

6/27/2025 6:00:00 AM AI大模型应用开发

AI语音诈骗的克星：AI语音识别干扰系统

在AI技术日益渗透日常通信的背景下，电话诈骗手段也随之升级。如今，诈骗者不再亲自出马，而是借助文本转语音（TTS）与自动语音识别（ASR）系统，批量拨打“钓鱼电话”，骗取用户隐私信息甚至财务数据。根据CrowdStrike的《2025年全球威胁报告》，2024年下半年，全球“语音钓鱼”（vishing）攻击激增442%，让执法与安全机构压力倍增。

6/27/2025 5:00:00 AM

无需数据标注：RLSC 如何用“自我信心”优化语言模型

大家好，我是肆〇柒。当下，大型语言模型（LLM）如 ChatGPT、Qwen 等展现出了卓越的推理能力，能够在多种任务中提供高质量的解决方案。然而，尽管这些模型具有强大的基础能力，但要使其行为与特定任务目标精准对齐，后训练优化仍然是不可或缺的关键步骤。

6/27/2025 4:00:00 AM 肆零柒

简述MCP的原理-AI时代的USB接口

1 简介2 执行流程3 mcp架构3.1 mcp架构设计3.2 mcp基本功能4 mcp通信原理4.1 JSON-RPC4.2 通信方式5 生命周期5.1 环境搭建5.2 建立连接获取可用工具列表5.3 调用工具6 总结1.简介随着AI的不断发展，RAG（检索增强生成）和function calling等技术的出现，使得大语言模型的对话生成能力得到了增强。然而，function calling的实现逻辑比较复杂，一个简单的工具调用和实现方式需要针对不同的系统和大模型单独编写适配接口，十分复杂。在此背景下，mcp应运而生，为当前业内AI高效可靠地调用外部工具实现了标准化。

6/27/2025 3:00:22 AM 张皓昱

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

资讯列表

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提升32%

Black Forest震撼开源FLUX.1 Kontext [dev]：媲美GPT-4o的图像编辑

开源神器来了！FLUX.1 Kontext [dev]挑战GPT-4o，图像编辑进入新时代

​Meta 挖角 OpenAI 顶级研究员，AI 超级智能团队再添猛将

谷歌AlphaGenome横空出世！40亿年生命代码一键破解，或再夺诺奖

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

北大发布学术搜索评测ScholarSearch：难倒一众DeepResearch的“开卷考试”

Nature报道：谷歌新模型1秒读懂DNA变异！首次统一基因组全任务，性能碾压现有模型

推理越多，幻觉越重？多模态推理模型的「幻觉悖论」

消息称 DeepSeek-R2 AI 模型开发进程因美国当局英伟达 H20 芯片出口限制而延迟

大语言模型热潮与现实的差距：CISO应关注什么

合成数据创造商业价值的七种方式

裁员潮下，AI开始重塑IT就业格局

SCIENCEBOARD：构建智能体驱动的科学探索新「环境」

一文彻底搞懂智能体Agent基于ReAct的工具调用

AI语音诈骗的克星：AI语音识别干扰系统

无需数据标注：RLSC 如何用“自我信心”优化语言模型

简述MCP的原理-AI时代的USB接口

Meta 挖角 OpenAI 顶级研究员，AI 超级智能团队再添猛将