AI在线 AI在线

模型

突破大模型推理瓶颈!首篇「Test-Time Scaling」全景综述,深入剖析AI深思之道

本文由来自香港城市大学、麦吉尔大学(McGill)、蒙特利尔人工智能实验室(MILA)、人大高瓴人工智能学院、Salesforce AI Research、斯坦福大学、UCSB、香港中文大学等机构的多位研究者共同完成。 第一作者为来自香港城市大学的博士生张启源和来自蒙特利尔人工智能实验室(MILA)的博士生吕福源。 当训练成本飙升、数据枯竭,如何继续激发大模型潜能?
5/13/2025 3:13:28 PM
机器之心

AI 横扫医学问答,赢麻了?牛津大学团队实锤 AI 临床短板

原本以为,大模型考过了医学考试,离成为“AI医生”也就差临门一脚。 没想到,牛津大学最新这项研究,却狠狠给了一记当头棒喝。 图片论文地址:“AI诊断准确率高达99%!
5/13/2025 3:10:50 PM
文摘菌

OpenAI 发布 HealthBench:评估大型语言模型在医疗领域表现的新标准

近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。 此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持,旨在弥补现有评估标准的不足,特别是在真实应用、专家验证和诊断覆盖方面。 现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式,如多项选择考试。
5/13/2025 3:00:52 PM
AI在线

全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它

一夜之间,老黄天塌了(doge)。 全球首个分布式RL训练模型INTELLECT-2发布,它仅通过整合全球闲置或分散的计算资源,就完成了模型的强化学习训练,训练成本大大降低。 其模型性能与DeepSeek-R1媲美!
5/13/2025 1:51:20 PM

AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了

用AI无限扩展《我的世界》,动动鼠标、键盘即可搞定! 一直前进、砍掉树木,后面别有洞天的世界,都是由用户与环境交互、AI实时生成的。 也就是说,在砍掉树木之前,树后面的内容还是不存在的。
5/13/2025 1:50:00 PM

Sakana AI 扔出重磅炸弹:让机器像人一样“持续思考”

人工智能领域最近迎来了一项引人关注的新进展。 总部位于东京的 Sakana AI 发表了一篇题为《连续思维机器》(Continuous Thought Machines)的论文,提出了一种旨在让机器模拟生物大脑复杂神经活动和“持续思考”能力的新模型。 这篇论文的核心观点是挑战当前深度学习中对时间动态的简化处理,试图将神经元层面的时序处理和同步机制重新引入,使“神经时序”成为人工智能模型的基础。
5/13/2025 11:00:52 AM
AI在线

新一代开源视觉编码器 OpenVision 发布:超越 CLIP 与 SigLIP 的强大选择

加州大学圣克鲁兹分校近日宣布推出 OpenVision,这是一个全新的视觉编码器系列,旨在为 OpenAI 的 CLIP 和谷歌的 SigLIP 等模型提供替代方案。 OpenVision 的发布为开发者和企业带来了更多灵活性和选择,使得图像处理和理解变得更加高效。 什么是视觉编码器?视觉编码器是一种人工智能模型,它将视觉材料(通常是上传的静态图像)转化为可被其他非视觉模型(如大型语言模型)理解的数值数据。
5/13/2025 11:00:52 AM
AI在线

200M参数吊打商业巨头!浙大-哈佛开源ICEdit,用1%资源实现图像编辑自由!一句指令生成海报级修图方案

浙江大学联合哈佛大学提出一种高效的基于指令的图像编辑框架ICEdit,与以往的方法相比,ICEdit仅需1%的可训练参数(200M)和0.1% 的训练数据(50k),就展现出强大的泛化能力,能够处理各种编辑任务。 相比 Gemini、GPT4o 等商业模型,我们更加开源,成本更低,速度更快(处理一幅图像大约需要 9 秒),性能强大。 使用ComfyUI-nunchaku,仅需 4 GB VRAM GPU 就足以尝试我们的模型!
5/13/2025 9:12:18 AM
AIGC Studio

OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话

今天凌晨1点30,OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。 与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。 并且采用了多轮对话测试,而不是简单的答题或选择题模式。
5/13/2025 9:08:00 AM

Sam Altman最新万字专访:2025,Agent智能体应用大年

今天凌晨3点,全球著名投资机构红杉资本(Sequoia Capital)发布了,Sam Altman参加其举办的“2025 AI Ascent”大会。 OpenAI联合创始人兼首席执行官SamA ltaman作为特邀嘉宾,接受了32分钟的专访和现场提问。 Altaman回顾了OpenAI的创业历程、产品规划/发展、对AI行业的看法等。
5/13/2025 9:05:35 AM

GPT-5研发内幕首曝!OpenAI首席研究官:AGI指日可待

GPT-5到哪一步了? 最近,GPT-4.1核心研究员Michelle Pokrass透露,构建GPT-5的挑战在于,在推理和聊天之间找到适当的平衡。 她表示,「o3会认真思考,但并不适合进行随意聊天。
5/13/2025 9:02:23 AM
新智元

0.33秒生成1秒音频!Muyan-TTS 开源上线,播客、有声书场景完美适配

开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计,具备零样本语音合成、极速生成与高连贯性朗读能力,是当前最适合批量化长语音生成的模型之一。 Muyan-TTS 基于超10万小时播客数据预训练,仅需 0.33秒即可生成1秒高质量音频,支持无需打断地朗读数分钟文本,语音自然流畅。 更支持说话人定制,任意声音克隆,一键生成具有个性化语气与节奏的语音内容。
5/13/2025 9:00:52 AM
AI在线

推理模型越来越强,大模型微调还有必要吗?

最近笔者在将大模型服务应用于实际业务系统时,首先一般习惯性用一些闭源api服务,花上几块钱快速测试下流程,然后在去分析下大模型效果。 如果通过几次调整Prompt或者超参数还是出现的bad cases比较多(比如输出结果的结构化有问题,输出结果不理想,在某些专业领域不同模型结果表现不一并且效果比较差),这个时候需要考虑下通过微调的方式来训练大模型。 现在的大模型推理能力越来越厉害,人们开始怀疑:我们还需要花时间和资源去微调大模型吗?
5/13/2025 5:11:00 AM
ChallengeHub

18岁天才高中生独登顶刊,AI解锁150万新天体!斯坦福连夜发offer

在NASA的2000亿条数据中隐藏着150万个未知天体,而揭开它们神秘面纱的,竟是一位美国高中生!  他就是Matteo Paz,来自加州南帕萨迪纳高中的天才少年。 基于加州理工学院的研究,Matteo挖掘了美国国家航空航天局(NASA)某项任务「沉睡的数据」,并以独著身份在天文学顶级期刊发文。
5/12/2025 6:33:03 PM
新智元

苹果放大招!FastVLM 让视觉语言模型在 iPhone 上飞速 “狂飙”

苹果最近又搞了个大新闻,偷偷摸摸地发布了一个叫 FastVLM 的模型。 听名字可能有点懵,但简单来说,这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果官方宣称,首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!视觉语言模型的 “成长烦恼”现在的视觉语言模型,就像个不断进化的小天才,能同时理解图像和文本信息。 它的应用可广了,从帮咱们理解图片里的内容,到辅助创作图文并茂的作品,都不在话下。
5/12/2025 3:00:52 PM
AI在线

阿里通义千问成为日本AI发展的新基石

近日,日本经济新闻(NIKKEI)发表了一篇引人注目的报道,指出阿里巴巴的通义千问大模型正迅速成为日本人工智能开发的重要基础。 随着全球 AI 技术的飞速发展,通义千问的表现已在国际舞台上崭露头角,尤其是在日经新闻对各大 AI 模型进行的综合评测中,通义千问 Qwen2.5-Max 一举夺得第六名,超越了许多国内外知名模型,包括 DeepSeek-V3和 OpenAI 的 o3-mini 等。 日本的众多新兴企业正纷纷借助通义千问的强大能力,开发适用于自身的企业级 AI 模型。
5/12/2025 3:00:52 PM
AI在线

苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型

苹果正式发布FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM),以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。 FastVLM通过创新的FastViTHD视觉编码器,实现了高达85倍的编码速度提升,为实时多模态AI应用铺平了道路。 技术核心:FastViTHD编码器与高效设计FastVLM的核心在于其全新设计的FastViTHD混合视觉编码器,针对高分辨率图像处理进行了深度优化。
5/12/2025 3:00:52 PM
AI在线

陶哲轩油管首秀:33分钟,AI速证「人类需要写满一页纸」的证明

快来围观,陶哲轩当视频博主了。 第一个产出就很炸裂:人类需要写满一页纸的证明,结果借助AI 33分钟就搞定了? 整个过程看起来一气呵成,还是全程“盲证”不用过脑子那种。
5/12/2025 2:26:43 PM