AI在线 AI在线

资讯列表

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。 但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。 一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。
6/17/2025 9:04:33 AM

​谷歌被指用 ChatGPT 提升 Gemini,Scale AI 坚决否认

根据近期的报道,谷歌在生成式人工智能领域的竞争似乎正面临新的挑战。 尽管谷歌拥有强大的云计算能力和丰富的人才资源,但在与微软和 OpenAI 的竞争中,谷歌常常被视为处于劣势地位。 微软首席执行官萨提亚・纳德拉曾指出,谷歌在人工智能领域错失了良机,这引发了谷歌母公司 Alphabet 的首席执行官桑达尔・皮查伊的强烈回应。
6/17/2025 9:02:17 AM
AI在线

​阿里巴巴发布 Qwen3 升级版,适配苹果 MLX 架构

阿里巴巴集团宣布推出其旗舰人工智能模型 Qwen3的全新升级版,该版本已成功适配苹果的 MLX 架构,这意味着苹果智能(Apple Intelligence)在中国市场的推出似乎指日可待。 根据阿里巴巴的消息,新的 Qwen3版本具备更强的性能,支持119种语言和方言,进一步提升了用户体验。 在此前的 iOS18.4版本中,苹果智能已经开始支持简体中文,但其生成式人工智能功能在中国大陆尚未正式上线。
6/17/2025 9:02:17 AM
AI在线

2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%

当碳基生物还在为写文献综述,打开了一百个浏览器窗口时,隔壁AI已经卷起来了。 (doge)两天完成人类12年工作——医学研究领域中,系统评价(SRs)作为临床决策的黄金标准,平均耗时超过16个月,花费10万美元以上,且容易延长无效或有害治疗方法的使用。 于是多伦多大学、哈佛医学院等机构联合开发了AI端到端工作流程——otto-SR。
6/17/2025 9:00:00 AM

一个数据集,一年产稿7876篇!AI强力加持,垃圾论文海量爆发

假如你是一位科研期刊的编辑,每天打开邮箱,迎接的却是一堆似曾相识的论文。 它们主题各异,数据整齐,措辞流畅,但总有种让人不安的「模板感」。 这可不是一个瞎编的场景,而是2024年发生在《Scientific Reports》编辑Matt Spick身上的真实经历。
6/17/2025 8:53:00 AM

Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

几天前,苹果怒斥大模型根本不会推理论文,引发全网无数讨论与争议。 在许多人看来,没有站在AI前沿的人, 却质疑当今最领先推理模型o3-mini、DeepSeek-R1推理能力,实在没有说服力。 论文一出,备受质疑。
6/17/2025 8:52:00 AM

MIT工科生跨界AI,独作论文登Nature:只需3.5小时修复600年前名画

MIT理工男跨界艺术,一不小心就以一篇独作论文登上Nature? 由他设计的AI算法,将原本需要数月/数年才能搞定的名画修复工作,极限压缩至几小时。 Alex Kachkine,打破画作修复只能对原作数字扫描品进行“缝缝补补”的传统艺能,提出一种“以数字方式修复一幅画,并在物理上实现效果”的全新方法。
6/17/2025 8:50:00 AM

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

近年来,链式推理和强化学习已经被广泛应用于大语言模型,让大语言模型的推理能力得到了显著提升。 然而,在图像生成模型中,这种成功经验尚未得到充分探索。 图像生成模型往往直接依据给定文本生成图像,缺乏类似人类创作过程中的推理,导致生成的图像在语义遵循上仍有一定局限。
6/17/2025 8:47:00 AM

4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗

4B小模型极限在哪里? 最新模型Jan-nano引起热议,它在智能体任务上超过671B的最新版DeepSeek-V3 0528,在SimpleQA基准上获得80.7分。 先来看一下它的实际表现,包括两个任务:对研究某公司目前的扩张情况,该公司的扩张正威胁着另一家公司的市场份额,并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。
6/17/2025 8:45:00 AM

OpenAI o3 pro vs Gemini 2.5 pro:得分相差不大,更推荐使用Gemini 2.5 Pro

译者 | 李睿审校 | 重楼本文对OpenAI的o3-pro与谷歌的Gemini 2.5 Pro在图像分析、逻辑推理和数字推理上的表现进行了比较。 o3-pro在推理和工具使用上有所增强,但Gemini 2.5 Pro在逻辑和数学推理上更准确可靠。 Gemini 2.5 Pro在复杂任务中表现更佳,提供经过验证的准确响应,适合对准确性要求高的任务,而o3-pro虽然快速但存在关键错误。
6/17/2025 8:40:44 AM
李睿

关于AI区块链的一切:哪些是真,哪些是假?

译者 | 核子可乐审校 | 重楼人工智能(AI)正在推动创新,并彻底颠覆人们的工作方式。 然而,AI的普及以及人们对这项技术的日益依赖,也引发人们对其底层基础设施的中心化趋势、以及相关风险的质疑。 加密货币让我们意识到去中心化的重要性,特别是将计算资源及数据集集中于少数设施所带来的风险。
6/17/2025 8:28:45 AM
核子可乐

国内首个人形机器人全产业链专业展 6 月 20 日在杭州召开,特斯拉、宇树参展

国内首个人形机器人全产业链专业展6月20日-22日在杭州召开,特斯拉、宇树等300家企业参展,展示仿生驱动、具身智能等前沿技术。#人形机器人##AI技术#
6/17/2025 8:14:00 AM
浩渺

谷歌被曝用 ChatGPT 训练 Gemini,Scale AI 否认

有文件显示谷歌承包商或用 ChatGPT 训练改进 Bard(现谷歌 Gemini),Scale AI 否认。同时,Meta 拟 143 亿美元部分收购 Scale AI,谷歌不满或终止合作。#谷歌 #Gemini #ChatGPT
6/17/2025 8:11:50 AM
远洋

为 Apple Intelligence 入华铺路?阿里巴巴发布适配苹果 MLX 架构的 Qwen3 升级版

阿里巴巴推出Qwen3升级版,兼容苹果MLX架构,苹果智能中国上线指日可待。该模型支持119种语言,性能优于前代。iOS 18.6或向中国用户提供苹果智能预览。#AI技术##苹果智能#
6/17/2025 7:53:02 AM
远洋

C#与AI联姻:零依赖!用Keras.NET训练深度学习模型实录

在C#中实现深度学习通常需要依赖复杂的框架,但通过Keras.NET,我们可以在零外部依赖的情况下训练强大的深度学习模型。 下面我将分享一个完整的实战案例,展示如何用C#和Keras.NET训练一个图像分类模型。 这个实现具有以下特点:零外部依赖:仅使用Keras.NET和Numpy.NET库,无需安装Python或其他深度学习框架完整的训练流程:包括模型构建、数据加载、训练、评估和保存卷积神经网络:使用现代CNN架构进行图像分类模型检查点:自动保存验证集表现最佳的模型灵活的配置:可调整图像尺寸、批次大小和训练轮数要运行此代码,你需要安装以下NuGet包:Keras.NETNumpy.NETSciSharp.TensorFlow.Redist在实际应用中,你需要替换LoadData方法中的模拟数据加载逻辑,使用真实的图像数据。
6/17/2025 7:28:51 AM
CONAN

为何AI系统在规模化部署前必须植入审计追踪机制

AI服务编排框架为企业提供了多种功能,它们不仅规定了应用程序或智能体如何协同工作,还使管理员能够管理工作流程和智能体,并审计其系统。 随着企业开始扩大其AI服务的规模并将其投入生产,构建一个可管理、可追踪、可审计且健壮的流程管道能够确保其智能体按预期运行。 如果没有这些控制措施,企业可能无法意识到其AI系统中正在发生什么,可能只有在出现问题或未能遵守法规时才发现问题,而那时可能为时已晚。
6/17/2025 7:11:00 AM
Emilia

系统集成商在投标方案中使用AI时的六大安全防护策略

GenAI正在迅速改变系统集成商与企业之间的互动方式,特别是在这些供应商回应提案请求(RFP)的过程中。 随着越来越多的系统集成商利用AI来起草和优化他们的回应,企业必须重新考虑如何评估这些回应,并确保供应商的责任感。 在此,我们将探讨这一微妙的平衡,并讨论AI取证能力的重要性、加强合同条款以保护你的企业,以及AI素养培训如何帮助你在面对AI驱动的系统集成商提案时保持控制。
6/17/2025 7:00:00 AM
Ted Rogers

彻底解决Docker镜像无法下载

前言Docker是一个开源容器化平台,它的核心作用是通过容器技术将应用程序及其依赖环境打包成一个轻量级、可移植的单元,从而简化开发、部署和运维流程。 例如我们可以通过Docker轻松部署Dify社区版,帮助开发者和企业快速构建、部署及管理生成式AI应用。 由于众所周知的限制,国内开发者访问Docker Hub面临诸多不便,且多个国内镜像源陆续出现了无法使用的情况。
6/17/2025 6:40:45 AM
AI大模型应用开发