AI在线 AI在线

理论

3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%

近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调;反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果以及3D操作策略的效率? 中科院自动化所的研究人员提出的BridgeVLA给出了肯定的回答!
6/27/2025 9:10:17 AM

谷歌AlphaGenome横空出世!40亿年生命代码一键破解,或再夺诺奖

基因组,宛如生命的蓝图,藏在我们每一个细胞之中。 这套完整的DNA指令集,主导着生命体从外观功能到生长繁殖的几乎每一个方面,甚至是对疾病抵御的能力。 2003年,人类基因组测序完成,让人类首次窥见了DNA的全貌。
6/27/2025 8:56:51 AM

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

本文由中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。 第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生,主要研究方向为基础模型的优化、泛化和可扩展性理论,导师为李崇轩副教授,论文为其在字节跳动Seed实习期间完成。 第二作者张新雨是字节跳动研究员,主要研究方向为视觉生成模型。
6/27/2025 8:50:40 AM

北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”

LLMs能当科研助手了? 北大出考题,结果显示:现有模型都不能胜任。 北京大学DS-Lab发布ScholarSearch,这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集,包含223道高难度的学术检索题目及其答案。
6/27/2025 8:47:12 AM

Nature报道:谷歌新模型1秒读懂DNA变异!首次统一基因组全任务,性能碾压现有模型

谷歌DeepMind Alpha家族又双叒登上Nature报道,这次瞄准的是DNA变异。 现在只需1秒,就能精确定位基因组序列变异。 据Nature最新报道,谷歌DeepMind团队目前推出了突破性生物模型AlphaGenome。
6/27/2025 8:45:31 AM

推理越多,幻觉越重?多模态推理模型的「幻觉悖论」

在多模态大模型的飞速发展中,R1 系列多模态推理模型凭借显式的长链推理机制,在复杂任务中屡屡突破传统「快思考」范式的性能瓶颈。 然而,研究发现,随着推理链条的加长,这类模型的视觉感知能力却呈现出明显下滑的趋势,逐渐转而依赖语言先验进行「脑补」,生成内容也越来越容易脱离图像本身,甚至出现凭空捏造的幻觉现象。 这一「推理增强—感知削弱」的悖论,凸显了当前多模态推理模型在推理能力与感知准确性之间面临的平衡挑战。
6/27/2025 8:40:00 AM

大语言模型热潮与现实的差距:CISO应关注什么

从AI应用中的风险,如中毒的训练数据和幻觉现象,到AI赋能的安全措施,再到深度伪造、用户错误以及新型AI生成的攻击技术,网络安全行业正充斥着令人恐惧的安全威胁,这些威胁让CISO们不堪重负。 例如,在2025年4月的RSA会议期间及之后,与会者纷纷对AI带来的恐惧、不确定性和怀疑(FUD)表示强烈不满,尤其是供应商方面的表现。 其中一位是Netflix的信息风险工程师Tony Martin-Vegue,他在RSAC会议后的采访中告诉记者,虽然AI的炒作和潜力很大,但无法阻止其发展,不过有方法可以穿透炒作,并在最关键的地方应用基本控制措施。
6/27/2025 7:12:00 AM
Deb Radcliff

合成数据创造商业价值的七种方式

今年,几乎所有企业都在迅速采用AI,但大多数企业部署的都是与他人相同的平台,这些平台来自相同的供应商。 基于公司独特需求创建定制化的AI解决方案需要数据,不幸的是,公司手头的数据可能存在重大缺口,在使用时可能涉及隐私或合规性问题,此外,数据量可能也不足。 合成数据可以填补这一缺口,帮助企业从其AI部署中找到真正的商业价值。
6/27/2025 7:10:00 AM
Maria Korolov

SCIENCEBOARD:构建智能体驱动的科学探索新「环境」

大家好,我是肆〇柒。 今天,我们来聊聊 SCIENCEBOARD,这是一个由香港大学、上海人工智能实验室、复旦大学、北京大学、南京大学、华东师范大学和耶鲁大学等,多所知名高校和研究机构共同打造的创新平台。 它致力于在多域科学工作流中评估多模态自主智能体,为推动 AI 驱动的科学发现提供了全新的方法和工具。
6/27/2025 7:00:00 AM
肆零柒

裁员潮下,AI开始重塑IT就业格局

随着越来越多的公司将AI视为裁员的主要驱动力,IT专业人士不禁开始怀疑,职业焦虑是否正在成为现实,或者这个行业是否只是在适应另一个新的范式。 在新冠疫情期间,亚马逊是众多迅速扩大招聘规模以满足新封闭商业范式下需求的科技公司之一,其他寻求支持全远程工作队伍的企业也纷纷效仿,科技行业的招聘和薪资水平达到了前所未有的高度。 但这种繁荣并未持续太久,亚马逊与谷歌、Meta、微软以及其他知名企业一起,在2022年集体裁员超过10万人,以适应疫情后逐渐复苏的世界。
6/27/2025 7:00:00 AM
Sarah White

一文彻底搞懂智能体Agent基于ReAct的工具调用

前言AI智能体是指具备一定自主性、能感知环境并通过智能决策执行特定任务的软件或硬件实体。 它结合了人工智能技术(如机器学习、自然语言处理、计算机视觉等),能够独立或协作完成目标。 基于大语言模型(LLM)的Function Calling可以令智能体实现有效的工具使用和与外部API的交互。
6/27/2025 6:00:00 AM
AI大模型应用开发

AI语音诈骗的克星:AI语音识别干扰系统

在AI技术日益渗透日常通信的背景下,电话诈骗手段也随之升级。 如今,诈骗者不再亲自出马,而是借助文本转语音(TTS)与自动语音识别(ASR)系统,批量拨打“钓鱼电话”,骗取用户隐私信息甚至财务数据。 根据CrowdStrike的《2025年全球威胁报告》,2024年下半年,全球“语音钓鱼”(vishing)攻击激增442%,让执法与安全机构压力倍增。
6/27/2025 5:00:00 AM

无需数据标注:RLSC 如何用“自我信心”优化语言模型

大家好,我是肆〇柒。 当下,大型语言模型(LLM)如 ChatGPT、Qwen 等展现出了卓越的推理能力,能够在多种任务中提供高质量的解决方案。 然而,尽管这些模型具有强大的基础能力,但要使其行为与特定任务目标精准对齐,后训练优化仍然是不可或缺的关键步骤。
6/27/2025 4:00:00 AM
肆零柒

简述MCP的原理-AI时代的USB接口

1 简介2 执行流程3 mcp架构3.1 mcp架构设计3.2 mcp基本功能4 mcp通信原理4.1 JSON-RPC4.2 通信方式5 生命周期5.1 环境搭建5.2 建立连接获取可用工具列表5.3 调用工具6 总结1.简介随着AI的不断发展,RAG(检索增强生成)和function calling等技术的出现,使得大语言模型的对话生成能力得到了增强。 然而,function calling的实现逻辑比较复杂,一个简单的工具调用和实现方式需要针对不同的系统和大模型单独编写适配接口,十分复杂。 在此背景下,mcp应运而生,为当前业内AI高效可靠地调用外部工具实现了标准化。
6/27/2025 3:00:22 AM
张皓昱

生成式人工智能演变:生成式人工智能简史

从 Transformers(2017 年)到 DeepSeek-R1(2025 年)2025年初,我国推出突破性且经济高效的大型语言模型(LLM)DeepSeek-R1,引发了人工智能的巨变。 本文追溯了LLM的演变历程,始于2017年革命性的Transformer架构,该架构通过自注意力机制重塑了自然语言处理(NLP)。 到2018年,首批基于Transformer的两款LLM,GPT和BERT相继发布,显著增强了语境理解和文本生成能力,为未来的创新奠定了坚实的基础。
6/27/2025 3:00:00 AM

谷歌重磅开源Gemini CLI:免费AI工具,居然要干掉GitHub Copilot?

先说说我的第一印象6月25日那天,谷歌悄无声息地放出了Gemini CLI,Apache 2.0许可证,完全免费。 我当时就想,谷歌这是要和OpenAI正面刚了? 当Cursor靠着Claude 3.5在开发者群体里风生水起,GitHub Copilot还在那里慢悠悠地更新模型支持时,谷歌这招确实有点狠。
6/27/2025 2:29:00 AM
阿丸笔记

告别复杂SQL!用Spring AI + DeepSeek构建自然语言查询系统

项目概览现代应用越来越多地采用自然语言交互界面,让用户更轻松地操作系统。 这在数据查询场景中尤为实用,非技术人员可以直接用日常语言提,文本转 SQL 聊天机器人正是这样的典型应用。 它在人类语言和数据库之间搭建了沟通桥梁。
6/27/2025 2:00:00 AM
PIG AI

七款MCP工具,彻底改变我用 AI 写代码的方式

最近笔者在用Next.js写一个前端项目项目,半夜 11 点还在手动复制SQL表结构、Google各种JS报错信息。 PS:笔者是一个算法 后端工程师,对于前端的框架语法基本上只能靠搜索完成😭。 AI 编程助手不停地吐出过时的 React Hooks 或者是没理解我意思给出我不想要的代码,这让笔者极近崩溃,甚至想把电脑给砸了!
6/27/2025 1:22:00 AM
AI研究生