AI在线 AI在线

理论

当智能体失控时,企业将遭受重创

在采访中,AutoRABIT的CTO Jason Lord探讨了将智能体集成到现实世界中的系统所带来的网络安全风险。 诸如幻觉、提示注入和嵌入式偏见等问题可能会使这些系统成为易受攻击的目标。 Lord呼吁进行监督、持续监控和人为介入循环控制以应对这些威胁。
4/18/2025 11:22:57 AM
Mirko Zorz

实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!

号称“OpenAI迄今为止最强模型”,o3/o4-mini真实能力究竟如何? 就在发布后的几小时内,网友们的第一波实测已新鲜出炉。 最强推理模型o3,即使遇上首位全职提示词工程师Riley Goodside的“刻意刁难”,也顺利过关:图片可以看到,面对藏在一堆玩具里的手绘图表,它也能通过图像识别和推理能力正确解答。
4/18/2025 11:18:51 AM
量子位

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

紧跟o4-mini,谷歌上新了Gemini 2.5 Flash preview版本。 作为更注重效率的Flash,在大模型竞技场上排名并列第二,第一是自家的Gemini 2.5 Pro。 这样的表现,让Gemini 2.5 Flash的性价比直接拉满。
4/18/2025 10:43:23 AM

谷歌首款混合推理Gemini 2.5登场,成本暴降600%!思考模式一开,直追o4-mini

刚刚,谷歌重磅发布首个混合推理模型——Gemini 2.5 Flash。 与Claude类似,新模型的「思考预算」可以自定义,即可开启/关闭Gemini 2.5的思考模式。 图片值得一提的是,关闭思考的成本直接暴降600%,而且性能还不输Gemini 2.0 Flash。
4/18/2025 10:36:42 AM
新智元

最新万字长文!强化学习之父联合谷歌RL副总裁:未来不是靠强化学习算法而是「经验流」

就像Sam Altman 之前在博客文章中写的那样:回顾人工智能的发展,深度学习确实奏效了! 现在强化学习正如火如荼,OpenAI o系列,DeepSeek R0都显示出了强化学习的巨大威力,人类生成的数据推动了人工智能的惊人进步,但接下来会发生什么? 谷歌强化学习副总裁 David Silver与图灵奖获得者,强化学习之父Richard Sutton最新论文《Welcome to the Era of Experience》 犹如《TheBitterLesson(苦涩的教训)》的续章给我们当头一棒:人类数据正在见顶,经验是下一个超级数据源,真正能推动AI跃升的数据,必须随模型变强而自动增长。
4/18/2025 10:01:41 AM
AI寒武纪

AI 应用安全挑战与测评实践指南

作者 | 陈达在人工智能蓬勃发展的时代,AI应用广泛融入人们的生活与工作,从智能客服到智能推荐系统,从医疗影像诊断到金融风险预测,AI的身影无处不在。 然而,随着AI应用的普及,其潜在风险也逐渐凸显,AI风险测评成为保障应用可信的关键环节。 本文将围绕“AI风险测评助力应用可信”这一主题,深入探讨AI应用面临的风险、业界测评方法、实践思路及关键要点。
4/18/2025 9:45:47 AM
Thoughtworks洞见

突发!特朗普禁止英伟达,向DeepSeek等提供AI芯片

华尔街日报消息,特朗普政府已禁止在无许可证的情况下,向中国出售H20等AI芯片。 未来的相关销售也将需要许可证,这是特朗普政府首次对半导体海外销售实施重大限制,强化了拜登政府此前制定的规则。 由于该政策的实施,英伟达股票遭遇重创下跌了5%左右,并且季度营收会因无法按原计划销售损失55亿美元。
4/18/2025 9:43:38 AM
AIGC开放社区

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

最近,来自大连理工和莫纳什大学的团队提出了物理真实的视频生成框架 VLIPP。 通过利用视觉语言模型来将物理规律注入到视频扩散模型的方法来提升视频生成中的物理真实性。 论文主页: : ,能够生成高度逼真的视频内容,其作为世界模拟器的潜力已引起学界广泛关注。
4/18/2025 9:25:00 AM
机器之心

最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

视频理解的CoT推理能力,怎么评? 中科大等团队提出了评估基准——VCR-Bench,里面包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。 为确保评估的全面性和可靠性,每个维度都设计了100余条高质量样本。
4/18/2025 9:13:00 AM
量子位

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

当谈到AI为何能从「预测下一个词」中诞生智慧时,Ilya Sutskever曾用一个生动的比喻来解释。 想象你在读一本悬疑小说,如果仅凭前面的线索就能在最后一页推断出罪犯是谁,那么你对这个故事的理解无疑是深刻的。 同样,AI通过学习海量文本,掌握了从字面到语义的「线索」,展现出惊人的智能。
4/18/2025 9:07:00 AM
新智元

使用测试时间训练(TTT)生成一分钟视频

译者 | 布加迪审校 | 重楼从文本生成视频已取得了长足的进展,但在制作更长的多场景故事时仍然会遇到瓶颈。 虽然Sora、Veo和Movie Gen之类的扩散模型已提高了视觉质量的门槛,但它们通常仅限于 20秒以内的片段。 真正的挑战是什么?
4/18/2025 8:47:22 AM
布加迪

UC伯克利:让推理模型少思考,准确率反而更高了!

让推理模型不要思考,得到的结果反而更准确? UC伯克利新研究发现,强制要求模型跳过思考过程,推理能力却比正常思考还好。 例如在定理证明任务当中,“不思考”模式仅使用30%的Token,就能实现和完整思考一样的准确率。
4/18/2025 8:42:52 AM
量子位

使用LangGraph构建你的第一个AI Agent-附完整代码

AI Agent 指的是有能力主动思考和行动的智能体,能够以类似人类的方式工作,通过大模型来“理解”用户需求,主动“规划”以达成目标,使用各种“工具”来完成任务,并最终“行动”执行这些任务。 从模型到 Agent在 Agent 出现之前,我们将 AI 模型建为独立且互不关联的组件——一个模型用于理解文本,一个模型用于生成代码,还有一个模型用于处理图像。 这种碎片化的方法迫使用户手动管理工作流程导致在不同系统之间切换时上下文信息消失需要为每个流程步骤集成 ai 模型Agent 的出现就是为了解决这一碎片问题。
4/18/2025 8:01:21 AM
wayn

AI 与非结构化数据:简单 RAG 的局限及生产级解决方案全解析

非结构化数据涵盖了电子邮件、PDF 文件、会议记录等多种形式,它们充斥在各个角落,却由于缺乏固定的格式,给传统的数据处理工具带来了巨大的挑战。 而人工智能(AI)的出现,尤其是大型语言模型(LLMs),为解决非结构化数据的难题带来了新的希望。 但在实际应用中,简单的检索增强生成(RAG)方法却存在诸多不足,无法满足复杂的生产级场景需求。
4/18/2025 2:55:00 AM
大模型之路

自主式AI对安全专家来说既是福音也是祸患

网络安全在自主式AI面前站在了一个十字路口,我们从未拥有过如此强大的工具,它可以在眨眼之间创建大量的代码,发现并解除威胁,并且可以被如此果断且防御性地使用,这已经被证明是一个巨大的力量倍增器和生产力红利。 但虽然功能强大,自主式AI却并不可靠,这就是目前的困境。 所创建的代码可能包含微妙的缺陷,并且最终可能会弊大于利,比如通过助长网络钓鱼诱饵和构建新型恶意软件。
4/18/2025 12:10:00 AM
David Strom

阿里、蚂蚁、腾讯纷纷推出 AI 组件库,React / Vue 全覆盖,AI 组件库超全汇总来啦!

随着 AI 技术的快速发展,阿里、蚂蚁、腾讯都相继发布了各自的 AI 组件库。 这些组件库支持 React 和 Vue 技术栈,为开发者提供了高效的解决方案。 Ant DesIgn XAnt Design X 是蚂蚁集团开发的 AI 组件库。
4/18/2025 12:04:00 AM
前端充电宝

超实用!用FunctionCall实现快递AI助手

昨天晚上直播,我们用 RAG(Retrieval-Augmented Generation,检索增强生成)实现了数据库 AI 助手,今天我们准备换一个技术使用 function call 来实现快递 AI 助手。 执行效果快递 AI 助手的业务逻辑很清晰,就是我通过 LLM 大语言模型的对话来查询我的快递详情,例如,我问 AI 我有几个“运送中”的快递,他把这些快递查询并展示出来,效果如下图所示:图片什么是 function call? 定义: Function Call(也称为 Tool Call)它允许大模型与一组 API 或工具进行交互,从而增强其功能。
4/18/2025 12:00:00 AM
磊哥

清华学霸、OpenAI姚顺雨:AI下半场开战,评估将比训练重要

最近新出的《黑镜》第七季大家都看了吗? 其中第三集聚焦一个叫 ReDream 的前沿技术,允许现代演员通过 AI 和虚拟现实与经典黑白电影中的虚拟角色互动,快速重拍经典影片。 随着故事发展,主角发现 AI 角色似乎拥有自我意识。
4/17/2025 4:34:00 PM
机器之心