AI在线 AI在线

理论

Unsloth 微调 Qwen3 实战教程来了!

unsloth微调Qwen3模型提供显著优势:训练速度提高2倍,VRAM使用减少70%,支持8倍长的上下文。 Qwen3–30B-A3B仅需17.5GB VRAM即可运行。 unsloth的Dynamic 2.0量化技术保证了高精度,同时支持原生128K上下文长度。
5/14/2025 1:00:00 AM

通用RAG:通过路由模块对多源异构知识库检索生成问答思路

如何在多个语料库(多源异构知识库,如:文本、图片、视频)中检索和整合来自不同模态和粒度的知识? UniversalRAG:一个多模态RAG框架,用于从多个模态和粒度的语料库中检索和整合知识。 下面来看看思路,供参考。
5/14/2025 12:23:00 AM
余俊晖

CVPR2025 | 五大榜单夺冠!MonSter:单目+双目融合引领深度估计新纪元

一眼概览:MonSter是一种创新性的双分支立体匹配方法,首次将单目深度估计与双目立体匹配协同优化,在多个主流数据集上取得全面领先的性能。 核心问题:传统立体匹配在遮挡、纹理缺失、重复结构和远距离区域表现不佳,难以恢复精确深度。 该研究核心在于:如何利用单目深度的结构先验弥补双目匹配在病态区域中的信息缺失,同时消除单目深度的尺度漂移误差。
5/13/2025 4:57:18 PM
萍哥学AI

支付巨头被打脸!曾放话AI能顶700名人类客服,年省4千万刀;一年后又把员工招回来了!CEO公开认错:我们部署AI的方式太极端了

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)第一批因为AI裁员的公司,又把员工请回来了! 曾信誓旦旦宣布“一个 AI 顶 700 个客服”的 Klarna,如今不得不亲自“打脸”。 图片这家全球领先的“先买后付”平台(类似于国内的“蚂蚁花呗”),在 2024 年接入 OpenAI 技术后,便风风火火地All in AI:暂停招聘、削减成本,甚至计划用 AI 逐步取代多达数千名的外包客服。
5/13/2025 3:17:07 PM
伊风

一句指令,无限宇宙!Matrix-Game硬核上线,秒杀SOTA

黑客帝国中的「矩阵」,已照进现实。 指尖轻点,一个细节满满、物理规则完美运转的虚拟世界就此诞生。 这个曾经只在科幻大片出现的场景,如今「空间智能」就帮人类实现了。
5/13/2025 3:16:48 PM
新智元

突破大模型推理瓶颈!首篇「Test-Time Scaling」全景综述,深入剖析AI深思之道

本文由来自香港城市大学、麦吉尔大学(McGill)、蒙特利尔人工智能实验室(MILA)、人大高瓴人工智能学院、Salesforce AI Research、斯坦福大学、UCSB、香港中文大学等机构的多位研究者共同完成。 第一作者为来自香港城市大学的博士生张启源和来自蒙特利尔人工智能实验室(MILA)的博士生吕福源。 当训练成本飙升、数据枯竭,如何继续激发大模型潜能?
5/13/2025 3:13:28 PM
机器之心

AI 横扫医学问答,赢麻了?牛津大学团队实锤 AI 临床短板

原本以为,大模型考过了医学考试,离成为“AI医生”也就差临门一脚。 没想到,牛津大学最新这项研究,却狠狠给了一记当头棒喝。 图片论文地址:“AI诊断准确率高达99%!
5/13/2025 3:10:50 PM
文摘菌

文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”

“先推理、再作答”,语言大模型的Thinking模式,现在已经被拓展到了图片领域。 近日,港中文MMLab团队发布了第一个基于强化学习的推理增强文生图模型:T2I-R1。 大家都知道,OpenAI o1和DeepSeek-R1这类的大语言模型(LLMs),已经在解数学题和写代码这些需要“动脑筋”的事情上面展现出了较高的水平。
5/13/2025 1:54:41 PM
量子位

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

一夜之间,老黄天塌了(doge)。 全球首个分布式RL训练模型INTELLECT-2发布,它仅通过整合全球闲置或分散的计算资源,就完成了模型的强化学习训练,训练成本大大降低。 其模型性能与DeepSeek-R1媲美!
5/13/2025 1:51:20 PM

AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了

用AI无限扩展《我的世界》,动动鼠标、键盘即可搞定! 一直前进、砍掉树木,后面别有洞天的世界,都是由用户与环境交互、AI实时生成的。 也就是说,在砍掉树木之前,树后面的内容还是不存在的。
5/13/2025 1:50:00 PM

OpenAI新领导上任第一把火:DeepResearch一个小改动被网友狂赞!终于可导出PDF网友:啥时候能导出ChatGPT?

编辑 | 云昭就在刚刚! OpenAI 为其 Agent 代表作 Deep Research 功能推出了一项全新的 PDF 导出功能,允许用户下载格式完整的研究报告,包括表格、图片和可点击的引用链接。 这一看似不起眼的小动作意外引来了大批量用户的欢呼!
5/13/2025 12:47:16 PM
云昭

C++之父:重点没在下一个版本!而是如何写好现代版的C++

采访 | Tim Anderson整理 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)上周,5月6-7日,于慕尼黑举行的Qt World Summit大会上,C 之父Bjarne Stroustrup在其《21世纪的C 》主题演讲前特别接受了外媒DevClass的专访,访谈中涉及到很多,比如:如何写出现代风格的C ? 为什么替代这门语言很难? AI潜在的风险,以及为何拥有多套略有差异的编译器反而是一件好事?
5/13/2025 10:17:40 AM
云昭

常用模型蒸馏方法:这 N 个核心,你都知道吗?(上)

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活、健壮的模型技术体系。 随着深度学习模型规模的爆炸式增长,它们在各种任务上展现出令人惊叹的性能。 然而,庞大的参数量和计算需求也带来了新的挑战:如何在资源受限的设备上高效部署这些模型?
5/13/2025 9:48:20 AM
Luga Lee

LLM 学习笔记:最好的学习方法是带着问题去寻找答案

作者:huaxing知其然,然后知其所以然。 本文主要是对学习赛博活佛Andrej Karpathy 7个小时教学视频的总结和拓展阅读笔记,推荐去看原视频,很精彩,链接在文末。 从最常用的聊天应用过程分析开始,引入对话过程原理浅析,再到LLM训练过程;再结合当前主流的应用形式,在得知最新用法的同时,加深对LLM的理解;再谈谈AI的最新重大进展MCP;以及作为JAVAer,在Java领域有哪些前沿能力去整合LLM。
5/13/2025 9:42:46 AM
腾讯技术工程

月之暗面开源音频模型Kimi-Audio,从「语音转文字」到「读心对话」,让AI听懂人类 “弦外之音”!

近期,Kimi在语音交互领域发布了Kimi-Audio模型,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。 AI让机器不仅 “听到” 声音,更能 “听懂” 语言背后的情感、意图和语境。 Kimi-Audio 的核心突破,在于构建了一个全流程端到端的实时语音对话系统。
5/13/2025 9:21:30 AM
AIGC Studio

200M参数吊打商业巨头!浙大-哈佛开源ICEdit,用1%资源实现图像编辑自由!一句指令生成海报级修图方案

浙江大学联合哈佛大学提出一种高效的基于指令的图像编辑框架ICEdit,与以往的方法相比,ICEdit仅需1%的可训练参数(200M)和0.1% 的训练数据(50k),就展现出强大的泛化能力,能够处理各种编辑任务。 相比 Gemini、GPT4o 等商业模型,我们更加开源,成本更低,速度更快(处理一幅图像大约需要 9 秒),性能强大。 使用ComfyUI-nunchaku,仅需 4 GB VRAM GPU 就足以尝试我们的模型!
5/13/2025 9:12:18 AM
AIGC Studio

OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话

今天凌晨1点30,OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。 与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。 并且采用了多轮对话测试,而不是简单的答题或选择题模式。
5/13/2025 9:08:00 AM

Sam Altman最新万字专访:2025,Agent智能体应用大年

今天凌晨3点,全球著名投资机构红杉资本(Sequoia Capital)发布了,Sam Altman参加其举办的“2025 AI Ascent”大会。 OpenAI联合创始人兼首席执行官SamA ltaman作为特邀嘉宾,接受了32分钟的专访和现场提问。 Altaman回顾了OpenAI的创业历程、产品规划/发展、对AI行业的看法等。
5/13/2025 9:05:35 AM