AI在线 AI在线

理论

2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%

当碳基生物还在为写文献综述,打开了一百个浏览器窗口时,隔壁AI已经卷起来了。 (doge)两天完成人类12年工作——医学研究领域中,系统评价(SRs)作为临床决策的黄金标准,平均耗时超过16个月,花费10万美元以上,且容易延长无效或有害治疗方法的使用。 于是多伦多大学、哈佛医学院等机构联合开发了AI端到端工作流程——otto-SR。
6/17/2025 9:00:00 AM

一个数据集,一年产稿7876篇!AI强力加持,垃圾论文海量爆发

假如你是一位科研期刊的编辑,每天打开邮箱,迎接的却是一堆似曾相识的论文。 它们主题各异,数据整齐,措辞流畅,但总有种让人不安的「模板感」。 这可不是一个瞎编的场景,而是2024年发生在《Scientific Reports》编辑Matt Spick身上的真实经历。
6/17/2025 8:53:00 AM

Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

几天前,苹果怒斥大模型根本不会推理论文,引发全网无数讨论与争议。 在许多人看来,没有站在AI前沿的人, 却质疑当今最领先推理模型o3-mini、DeepSeek-R1推理能力,实在没有说服力。 论文一出,备受质疑。
6/17/2025 8:52:00 AM

MIT工科生跨界AI,独作论文登Nature:只需3.5小时修复600年前名画

MIT理工男跨界艺术,一不小心就以一篇独作论文登上Nature? 由他设计的AI算法,将原本需要数月/数年才能搞定的名画修复工作,极限压缩至几小时。 Alex Kachkine,打破画作修复只能对原作数字扫描品进行“缝缝补补”的传统艺能,提出一种“以数字方式修复一幅画,并在物理上实现效果”的全新方法。
6/17/2025 8:50:00 AM

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

近年来,链式推理和强化学习已经被广泛应用于大语言模型,让大语言模型的推理能力得到了显著提升。 然而,在图像生成模型中,这种成功经验尚未得到充分探索。 图像生成模型往往直接依据给定文本生成图像,缺乏类似人类创作过程中的推理,导致生成的图像在语义遵循上仍有一定局限。
6/17/2025 8:47:00 AM

4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗

4B小模型极限在哪里? 最新模型Jan-nano引起热议,它在智能体任务上超过671B的最新版DeepSeek-V3 0528,在SimpleQA基准上获得80.7分。 先来看一下它的实际表现,包括两个任务:对研究某公司目前的扩张情况,该公司的扩张正威胁着另一家公司的市场份额,并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。
6/17/2025 8:45:00 AM

OpenAI o3 pro vs Gemini 2.5 pro:得分相差不大,更推荐使用Gemini 2.5 Pro

译者 | 李睿审校 | 重楼本文对OpenAI的o3-pro与谷歌的Gemini 2.5 Pro在图像分析、逻辑推理和数字推理上的表现进行了比较。 o3-pro在推理和工具使用上有所增强,但Gemini 2.5 Pro在逻辑和数学推理上更准确可靠。 Gemini 2.5 Pro在复杂任务中表现更佳,提供经过验证的准确响应,适合对准确性要求高的任务,而o3-pro虽然快速但存在关键错误。
6/17/2025 8:40:44 AM
李睿

关于AI区块链的一切:哪些是真,哪些是假?

译者 | 核子可乐审校 | 重楼人工智能(AI)正在推动创新,并彻底颠覆人们的工作方式。 然而,AI的普及以及人们对这项技术的日益依赖,也引发人们对其底层基础设施的中心化趋势、以及相关风险的质疑。 加密货币让我们意识到去中心化的重要性,特别是将计算资源及数据集集中于少数设施所带来的风险。
6/17/2025 8:28:45 AM
核子可乐

C#与AI联姻:零依赖!用Keras.NET训练深度学习模型实录

在C#中实现深度学习通常需要依赖复杂的框架,但通过Keras.NET,我们可以在零外部依赖的情况下训练强大的深度学习模型。 下面我将分享一个完整的实战案例,展示如何用C#和Keras.NET训练一个图像分类模型。 这个实现具有以下特点:零外部依赖:仅使用Keras.NET和Numpy.NET库,无需安装Python或其他深度学习框架完整的训练流程:包括模型构建、数据加载、训练、评估和保存卷积神经网络:使用现代CNN架构进行图像分类模型检查点:自动保存验证集表现最佳的模型灵活的配置:可调整图像尺寸、批次大小和训练轮数要运行此代码,你需要安装以下NuGet包:Keras.NETNumpy.NETSciSharp.TensorFlow.Redist在实际应用中,你需要替换LoadData方法中的模拟数据加载逻辑,使用真实的图像数据。
6/17/2025 7:28:51 AM
CONAN

为何AI系统在规模化部署前必须植入审计追踪机制

AI服务编排框架为企业提供了多种功能,它们不仅规定了应用程序或智能体如何协同工作,还使管理员能够管理工作流程和智能体,并审计其系统。 随着企业开始扩大其AI服务的规模并将其投入生产,构建一个可管理、可追踪、可审计且健壮的流程管道能够确保其智能体按预期运行。 如果没有这些控制措施,企业可能无法意识到其AI系统中正在发生什么,可能只有在出现问题或未能遵守法规时才发现问题,而那时可能为时已晚。
6/17/2025 7:11:00 AM
Emilia

系统集成商在投标方案中使用AI时的六大安全防护策略

GenAI正在迅速改变系统集成商与企业之间的互动方式,特别是在这些供应商回应提案请求(RFP)的过程中。 随着越来越多的系统集成商利用AI来起草和优化他们的回应,企业必须重新考虑如何评估这些回应,并确保供应商的责任感。 在此,我们将探讨这一微妙的平衡,并讨论AI取证能力的重要性、加强合同条款以保护你的企业,以及AI素养培训如何帮助你在面对AI驱动的系统集成商提案时保持控制。
6/17/2025 7:00:00 AM
Ted Rogers

彻底解决Docker镜像无法下载

前言Docker是一个开源容器化平台,它的核心作用是通过容器技术将应用程序及其依赖环境打包成一个轻量级、可移植的单元,从而简化开发、部署和运维流程。 例如我们可以通过Docker轻松部署Dify社区版,帮助开发者和企业快速构建、部署及管理生成式AI应用。 由于众所周知的限制,国内开发者访问Docker Hub面临诸多不便,且多个国内镜像源陆续出现了无法使用的情况。
6/17/2025 6:40:45 AM
AI大模型应用开发

智能体协作的力量:Anthropic 的「Research」多智能体实践

大家好,我是肆〇柒。 在 AI 领域,多智能体系统正逐渐成为解决复杂任务的关键技术之一。 昨天,我看到一篇出自 Anthropic 官网 Engineering 板块的博文,主要分享了Anthropic 在 Research 这个功能对于多智能体的工程实践。
6/17/2025 6:28:08 AM
肆零柒

迈向人工智能的认识论:如何推理对齐和改变他们的思维

要理解 LLM 的行为方式,回顾一下其架构基础知识会很有帮助:Transformer。 Vaswani等人提出的 Transformer 从根本上建立在自注意力层之上。 每一层都允许模型在输入以及之前生成的输出token 之间动态地重新分配注意力,这意味着它可以在每一步检索它认为相关的任何信息。
6/17/2025 6:21:13 AM
晓晓

工业异常检测新突破,复旦等多模态融合监测入选CVPR 2025

多模态融合检测,工业异常检测领域新突破! 复旦大学、荣旗工业科技、腾讯优图实验室 上海交通大学、上海海洋大学等机构联合发布高精度多模态数据集Real-IAD D³,并基于此数据集提出了一种创新的多模态融合检测方法。 相关成果已被计算机视觉顶会CVPR 2025收录。
6/17/2025 2:25:00 AM

基于Dify构建客服智能体全流程实战,揭秘提升RAG效果关键

前言Dify是一款开源的大语言模型应用开发平台,旨在降低AI应用的开发门槛,帮助开发者和企业快速构建、部署及管理生成式AI应用。 Dify的知识库功能将RAG管线上的各环节可视化,提供了一套简单易用的用户界面来方便应用构建者管理个人或者团队的知识库,并能够快速集成至 AI 应用中。 为了达到最好的RAG检索效果,需要选择正确的分段设置。
6/17/2025 1:00:00 AM
AI大模型应用开发

Devin联合创始人:别搞多智能体系统!微软和OpenAI鼓吹的代理构建理念大错特错!上下文工程将成新标准,员工:老板停止泄密

编辑 | 云昭OpenAI 和 微软正在宣传一些错误的 Agent 理念! OpenAI 的 Swarm 走的是一条“歧路”! 刚刚过去的周末,Devin 联合创始人 Walden Yan 发布了的帖子语出惊人,引起了业界的关注和讨论。
6/16/2025 6:03:36 PM
云昭

ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能

本文共同一作是张翔和曹峻泰。 张翔是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和 AI for Science;曹峻泰是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和可解释性研究;本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽,以及来自 Meta Gen AI 的研究员丁渡鉴。 近年来,大型语言模型(LLM)在自然语言处理领域取得了革命性进展。
6/16/2025 2:44:14 PM