AI在线 AI在线

AI

27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行

以 int4 量化为例,Gemma 3 27B 显存需求从 54GB 锐减至 14.1GB,Gemma 3 12B 则从 24GB 降至 6.6GB;Gemma 3 1B 仅需 0.5GB 显存。
4/19/2025 9:52:27 AM
故渊

微软推动 AI 互操作性,发布两大 MCP 服务器

Azure MCP Server为多种Azure资源提供通用访问支持,而Azure Database for PostgreSQL Flexible Server专用服务器则专注于数据库操作。这两个服务器均基于开放的MCP标准,简化开发流程,减少为不同数据源定制连接器的需求。
4/19/2025 9:16:15 AM
故渊

谷歌 Gemini 2.5 Flash 混合推理 AI 模型上线:性能成本双优

谷歌公司昨日(4 月 17 日)发布公告,宣布在 Google AI Studio 和 Vertex AI 中,以 Gemini API 的方式推出 Gemini 2.5 Flash Preview 预览 AI 模型。
4/18/2025 2:59:20 PM
故渊

SS 2025|ConRFT:真实环境下基于强化学习的VLA模型微调方法

本文第一作者为陈宇辉,中科院自动化所直博三年级;通讯作者为李浩然,中科院自动化所副研;研究方向为强化学习、机器人学习、具身智能。 视觉-语言-动作模型在真实世界的机器人操作任务中显示出巨大的潜力,但是其性能依赖于大量的高质量人类演示数据。 由于人类演示十分稀缺且展现出行为的不一致性,通过监督学习的方式对 VLA 模型在下游任务上进行微调难以实现较高的性能,尤其是面向要求精细控制的任务。
4/18/2025 12:25:34 PM
机器之心

AI 基准测试平台 Chatbot Arena 成立一家新公司

在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。 根据彭博社的报道,Chatbot Arena 旨在通过这家新公司获取更多资源,从而显著改善其平台的功能和服务。
4/18/2025 12:02:40 PM
AI在线

METR 实测:OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

风险测试机构“机器智能测试风险”(METR)昨日(4 月 17 日)发布报告,与 OpenAI 合作测试其 o3 模型时发现,该模型展现出更强的“作弊”或“黑客行为”倾向,试图通过操控任务评分系统提升成绩。
4/18/2025 11:16:39 AM
故渊

微软 AI 负责人预测:未来“智能”成为新货币,知识和能力比钱更重要

在接受 Jules Terpak 频道采访时,微软人工智能业务首席执行官穆斯塔法・苏莱曼(Mustafa Suleyman)表示,未来“智能”将成为新的货币,将重新定义财富与生活的本质。
4/18/2025 10:49:52 AM
故渊

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

紧跟o4-mini,谷歌上新了Gemini 2.5 Flash preview版本。 作为更注重效率的Flash,在大模型竞技场上排名并列第二,第一是自家的Gemini 2.5 Pro。 这样的表现,让Gemini 2.5 Flash的性价比直接拉满。
4/18/2025 10:43:23 AM

最新万字长文!强化学习之父联合谷歌RL副总裁:未来不是靠强化学习算法而是「经验流」

就像Sam Altman 之前在博客文章中写的那样:回顾人工智能的发展,深度学习确实奏效了! 现在强化学习正如火如荼,OpenAI o系列,DeepSeek R0都显示出了强化学习的巨大威力,人类生成的数据推动了人工智能的惊人进步,但接下来会发生什么? 谷歌强化学习副总裁 David Silver与图灵奖获得者,强化学习之父Richard Sutton最新论文《Welcome to the Era of Experience》 犹如《TheBitterLesson(苦涩的教训)》的续章给我们当头一棒:人类数据正在见顶,经验是下一个超级数据源,真正能推动AI跃升的数据,必须随模型变强而自动增长。
4/18/2025 10:01:41 AM
AI寒武纪

亚洲崛起:DeepSeek、巨额投资与数据中心助力 AI 竞争力

在今年的达沃斯世界经济论坛上,众多商界和政界领袖齐聚一堂,普遍认为美国科技巨头在人工智能(AI)领域占据主导地位,而中国乃至整个亚洲似乎都在这一赛道上滞后。 然而,在与会者离开后,这种看法开始遭遇挑战。 首先,来自中国的一家名不见经传的对冲基金 —— 深度寻求(DeepSeek)在这一时刻引发了全球的注意。
4/18/2025 10:01:28 AM
AI在线

AI 应用安全挑战与测评实践指南

作者 | 陈达在人工智能蓬勃发展的时代,AI应用广泛融入人们的生活与工作,从智能客服到智能推荐系统,从医疗影像诊断到金融风险预测,AI的身影无处不在。 然而,随着AI应用的普及,其潜在风险也逐渐凸显,AI风险测评成为保障应用可信的关键环节。 本文将围绕“AI风险测评助力应用可信”这一主题,深入探讨AI应用面临的风险、业界测评方法、实践思路及关键要点。
4/18/2025 9:45:47 AM
Thoughtworks洞见

突发!特朗普禁止英伟达,向DeepSeek等提供AI芯片

华尔街日报消息,特朗普政府已禁止在无许可证的情况下,向中国出售H20等AI芯片。 未来的相关销售也将需要许可证,这是特朗普政府首次对半导体海外销售实施重大限制,强化了拜登政府此前制定的规则。 由于该政策的实施,英伟达股票遭遇重创下跌了5%左右,并且季度营收会因无法按原计划销售损失55亿美元。
4/18/2025 9:43:38 AM
AIGC开放社区

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

最近,来自大连理工和莫纳什大学的团队提出了物理真实的视频生成框架 VLIPP。 通过利用视觉语言模型来将物理规律注入到视频扩散模型的方法来提升视频生成中的物理真实性。 论文主页: : ,能够生成高度逼真的视频内容,其作为世界模拟器的潜力已引起学界广泛关注。
4/18/2025 9:25:00 AM
机器之心

最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

视频理解的CoT推理能力,怎么评? 中科大等团队提出了评估基准——VCR-Bench,里面包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。 为确保评估的全面性和可靠性,每个维度都设计了100余条高质量样本。
4/18/2025 9:13:00 AM
量子位

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

当谈到AI为何能从「预测下一个词」中诞生智慧时,Ilya Sutskever曾用一个生动的比喻来解释。 想象你在读一本悬疑小说,如果仅凭前面的线索就能在最后一页推断出罪犯是谁,那么你对这个故事的理解无疑是深刻的。 同样,AI通过学习海量文本,掌握了从字面到语义的「线索」,展现出惊人的智能。
4/18/2025 9:07:00 AM
新智元

微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算

微软研究团队推出了一款开源大型语言模型 BitNet b1.58 2B4T,区别于传统训练后量化的方式,这款拥有 20 亿参数的大型语言模型(LLM)以 1.58 位低精度架构原生训练而成。
4/18/2025 8:54:22 AM
故渊

UC伯克利:让推理模型少思考,准确率反而更高了!

让推理模型不要思考,得到的结果反而更准确? UC伯克利新研究发现,强制要求模型跳过思考过程,推理能力却比正常思考还好。 例如在定理证明任务当中,“不思考”模式仅使用30%的Token,就能实现和完整思考一样的准确率。
4/18/2025 8:42:52 AM
量子位

使用LangGraph构建你的第一个AI Agent-附完整代码

AI Agent 指的是有能力主动思考和行动的智能体,能够以类似人类的方式工作,通过大模型来“理解”用户需求,主动“规划”以达成目标,使用各种“工具”来完成任务,并最终“行动”执行这些任务。 从模型到 Agent在 Agent 出现之前,我们将 AI 模型建为独立且互不关联的组件——一个模型用于理解文本,一个模型用于生成代码,还有一个模型用于处理图像。 这种碎片化的方法迫使用户手动管理工作流程导致在不同系统之间切换时上下文信息消失需要为每个流程步骤集成 ai 模型Agent 的出现就是为了解决这一碎片问题。
4/18/2025 8:01:21 AM
wayn