AI在线 AI在线

AI

OpenAI o3 模型基准测试成绩遭质疑,实测分数远不及宣称

OpenAI的o3模型在内部测试与第三方基准测试结果存在显著差异,Epoch研究所独立测试得分仅10%,远低于OpenAI宣称的25%。#AI争议##OpenAI#
4/21/2025 7:24:55 AM
远洋

研究:AI 医疗诊断平均准确率 52.1%,与非专家医生相当

大阪都会大学研究显示,生成式AI在医疗诊断中平均准确率达52.1%,与非专家医生相当,但专家医生仍领先15.8%。AI在皮肤科表现突出,泌尿科数据有限。研究认为AI可用于医学教育和资源有限地区。#AI医疗##医学诊断#
4/21/2025 7:07:00 AM
远洋

谈谈 RAG 的四个级别

选择正确的 RAG(检索增强生成)架构主要取决于具体的用例和实施要求,确保系统符合任务需求。 Agentic RAG 的重要性将日益增加,与Agentic X的概念相一致,其中代理能力嵌入个人助理和工作流程中。 这里的“X”代表代理系统的无限适应性,能够实现无缝任务自动化和跨不同环境的明智决策,从而提高组织效率和自主性。
4/21/2025 6:25:00 AM
晓晓

Cursor模型选型终极指南:解锁高效开发新姿势

引言在AI驱动开发的浪潮下,如何选择合适的工具模型成为决定项目成败的关键。 本文将结合MacOS环境下的Cursor 0.48.9实战体验,深度解析四大核心模型(Auto/Claude 3.7/GPT-4O/Gemini 2.5)的选型策略,助您构建高质量开发闭环。 一、智能开发新范式:Cursor的核心优势作为新一代AI开发利器,Cursor通过模型即服务的架构重塑开发流程。
4/21/2025 3:30:00 AM
前端组件开发

网络安全的战略性AI准备:从炒作到现实

构建网络安全中强大的AI就绪框架,基础概念至关重要,这些概念涵盖了企业的技术、数据、安全性、治理和运营流程。 AI就绪的表现AI在网络安全中的潜力在于其能够自动化、预测并增强随着威胁不断演变和复杂化而至关重要的决策能力。 例如,AI模型会处理网络流量模式以检测异常或基于历史数据预测潜在的攻击路径。
4/21/2025 2:00:00 AM
Aditya

十个AI网站生成神器,还没等咖啡凉透,网站就搭好了!

让AI帮你解决麻烦事,你只需专注想法本身,不再为技术抓狂。 我们说实话吧:大部分人其实并不享受从零开始做网站的过程。 要么技术太复杂,要么进度太缓慢,要么就是纯粹头大。
4/21/2025 12:00:00 AM
dev

对 ChatGPT 说“谢谢”,竟给 OpenAI 带来“数千万美元”开销

OpenAI CEO透露,仅仅是用户与AI进行的日常寒暄和礼貌性交流,例如“谢谢”和“请”等,就给公司带来了“数千万美元”的开销。#AI成本# #人机互动#
4/20/2025 11:36:07 AM
远洋

湖北武汉警方查处一起利用 AI 编造网络谣言案件,涉事公司被行政警告

武汉警方查处一起利用AI技术编造网络谣言的案件。涉事公司为提高网站流量,使用AI智能写作软件自动生成不实文章,未履行审核责任被行政警告。目前公司已公开致歉并整改。#AI监管##网络谣言#
4/20/2025 7:39:35 AM
漾仔

字节 Seedream 3.0 登场:文生图跑分超 GPT-4o,生成 1K 图像仅需约 3 秒

字节跳动最新推出全新文本生成图像模型 Seedream 3.0,其性能在内部和外部评测中均表现出色,超越前代 Seedream 2.0,并与 GPT-4o、Midjourney v6.1 和 Imagen 3 等主流系统一较高下。
4/19/2025 2:55:28 PM
故渊

AI 竞赛压力山大:Meta 被曝资金缺口,向微软、亚马逊求援

科技媒体 The Information 昨日(4 月 18 日)发布博文,报道称 Meta Platforms 在 AI 竞赛中面临巨大成本压力,去年曾向微软、亚马逊等竞争对手寻求资金支持,用于训练其旗舰大语言模型 Llama。
4/19/2025 10:07:45 AM
故渊

27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行

以 int4 量化为例,Gemma 3 27B 显存需求从 54GB 锐减至 14.1GB,Gemma 3 12B 则从 24GB 降至 6.6GB;Gemma 3 1B 仅需 0.5GB 显存。
4/19/2025 9:52:27 AM
故渊

微软推动 AI 互操作性,发布两大 MCP 服务器

Azure MCP Server为多种Azure资源提供通用访问支持,而Azure Database for PostgreSQL Flexible Server专用服务器则专注于数据库操作。这两个服务器均基于开放的MCP标准,简化开发流程,减少为不同数据源定制连接器的需求。
4/19/2025 9:16:15 AM
故渊

谷歌 Gemini 2.5 Flash 混合推理 AI 模型上线:性能成本双优

谷歌公司昨日(4 月 17 日)发布公告,宣布在 Google AI Studio 和 Vertex AI 中,以 Gemini API 的方式推出 Gemini 2.5 Flash Preview 预览 AI 模型。
4/18/2025 2:59:20 PM
故渊

SS 2025|ConRFT:真实环境下基于强化学习的VLA模型微调方法

本文第一作者为陈宇辉,中科院自动化所直博三年级;通讯作者为李浩然,中科院自动化所副研;研究方向为强化学习、机器人学习、具身智能。 视觉-语言-动作模型在真实世界的机器人操作任务中显示出巨大的潜力,但是其性能依赖于大量的高质量人类演示数据。 由于人类演示十分稀缺且展现出行为的不一致性,通过监督学习的方式对 VLA 模型在下游任务上进行微调难以实现较高的性能,尤其是面向要求精细控制的任务。
4/18/2025 12:25:34 PM
机器之心

AI 基准测试平台 Chatbot Arena 成立一家新公司

在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。 根据彭博社的报道,Chatbot Arena 旨在通过这家新公司获取更多资源,从而显著改善其平台的功能和服务。
4/18/2025 12:02:40 PM
AI在线

METR 实测:OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

风险测试机构“机器智能测试风险”(METR)昨日(4 月 17 日)发布报告,与 OpenAI 合作测试其 o3 模型时发现,该模型展现出更强的“作弊”或“黑客行为”倾向,试图通过操控任务评分系统提升成绩。
4/18/2025 11:16:39 AM
故渊

谷歌大模型“性价比之王”来了!混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro

紧跟o4-mini,谷歌上新了Gemini 2.5 Flash preview版本。 作为更注重效率的Flash,在大模型竞技场上排名并列第二,第一是自家的Gemini 2.5 Pro。 这样的表现,让Gemini 2.5 Flash的性价比直接拉满。
4/18/2025 10:43:23 AM

最新万字长文!强化学习之父联合谷歌RL副总裁:未来不是靠强化学习算法而是「经验流」

就像Sam Altman 之前在博客文章中写的那样:回顾人工智能的发展,深度学习确实奏效了! 现在强化学习正如火如荼,OpenAI o系列,DeepSeek R0都显示出了强化学习的巨大威力,人类生成的数据推动了人工智能的惊人进步,但接下来会发生什么? 谷歌强化学习副总裁 David Silver与图灵奖获得者,强化学习之父Richard Sutton最新论文《Welcome to the Era of Experience》 犹如《TheBitterLesson(苦涩的教训)》的续章给我们当头一棒:人类数据正在见顶,经验是下一个超级数据源,真正能推动AI跃升的数据,必须随模型变强而自动增长。
4/18/2025 10:01:41 AM
AI寒武纪