AI在线 AI在线

数据

GPT-4o不敌Qwen,无一模型及格!UC伯克利/港大等联合团队提出多模态新基准:考察多视图理解能力

多视图理解推理有新的评判标准了! 什么是多视图理解? 也就是从不同视角整合视觉信息进而实现理解决策。
5/15/2025 9:10:00 AM

ICML 2025 | 如何在合成文本数据时避免模型崩溃?

随着生成式人工智能技术的飞速发展,合成数据正日益成为大模型训练的重要组成部分。 未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。 然而,这一趋势也带来了严峻挑战:合成数据如果不加控制地使用,可能引发 “模型崩溃”(Model Collapse)问题。
5/14/2025 1:23:19 PM

o3完爆人类医生,OpenAI基准直击AGI!

最强AI,已击败了人类医生。 就在刚刚,全球60个国家,262名执业医生共同上阵,联手OpenAI打造出「最具AGI标志性」的AI健康系统评估标准——HealthBench。 这个基准包含了5,000个基于现实场景的健康对话,每个对话都有医生定制的评分标准,来评估模型的响应。
5/14/2025 10:09:12 AM

首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

本文由香港中文大学与快手可灵等团队联合完成。 第一作者为香港中文大学 MMLab 博士生刘杰,他的研究方向为强化学习和生成模型,曾获 ACL Outstanding Paper Award。 流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。
5/14/2025 9:15:00 AM

探索RAG数据分块策略:工具对比与实践指南(含code)

在检索增强生成(Retrieval-Augmented Generation, RAG)应用领域,数据分块作为关键预处理步骤,对模型性能和效果起着决定性作用。 本文深入探讨RAG应用中的数据分块策略,详细介绍和对比LangChain、LlamaIndex和Preprocess三种主流工具在数据分块方面的功能与特点,并结合实际案例分析其应用效果,为读者提供全面的技术指引。 RAG中数据分块的重要性RAG通过检索相关信息来增强语言模型的生成能力,数据分块则是优化这一过程的关键。
5/14/2025 1:40:00 AM
大模型之路

18岁天才高中生独登顶刊,AI解锁150万新天体!斯坦福连夜发offer

在NASA的2000亿条数据中隐藏着150万个未知天体,而揭开它们神秘面纱的,竟是一位美国高中生!  他就是Matteo Paz,来自加州南帕萨迪纳高中的天才少年。 基于加州理工学院的研究,Matteo挖掘了美国国家航空航天局(NASA)某项任务「沉睡的数据」,并以独著身份在天文学顶级期刊发文。
5/12/2025 6:33:03 PM
新智元

OpenAI命悬一线,微软连夜割肉!跪求OpenAI千万别分手

OpenAI和微软,快要闹崩了! 面对着想要上市的OpenAI,不惜割肉续命,绝不能让自己的130亿投资打水漂。 英国金融时报刚刚曝出,OpenAI和微软,正在重新协商数十亿美元的合作条款。
5/12/2025 6:26:55 PM
新智元

开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题

OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。 开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。 基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型Nexus-Gen,在图像质量和编辑能力上达GPT-4o同等水平,并将成果全方位开源,望引发开发者讨论,促进All-to-All模型领域发展。
5/12/2025 8:50:00 AM

​OpenAI 在亚洲推出数据驻留计划,助力本地企业合规

OpenAI 宣布,将在亚洲地区启动一项全新的数据驻留计划。 这项计划旨在帮助当地企业在使用 OpenAI 的产品时,能够更好地满足本地的数据主权要求。 此前,该公司在今年二月份已在欧洲推出了类似的计划。
5/9/2025 10:01:41 AM
AI在线

打工人福音!Genspark推出AI Sheets,聊聊天就能把表格数据处理了

昨天,Genspark正式发布AI Sheets,这款革命性电子表格工具彻底颠覆了我们与数据交互的方式。 通过引入自然语言处理技术,AI Sheets让用户只需像聊天一样输入指令,就能完成从数据收集到分析可视化的全流程工作,为数据处理领域带来翻天覆地的变革。 传统电子表格软件如Excel和Google Sheets要求用户掌握复杂的公式和函数,而AI Sheets则以惊人的简易性打破了这一壁垒。
5/9/2025 10:01:41 AM
AI在线

欧洲黑马Mistral Medium 3来了!跑分对标最强Claude,实测大翻车

就在刚刚, Mistral AI发布了他们最新多模态模型Mistral Medium 3。 Mistral兴奋地宣称Mistral Medium 3的性能接近甚至达到了Claude Sonnet 3.7的水平,但成本却比DeepSeek V3还低。 在Mistral官方的博客中,列出了Mistral Medium 3的核心亮点:1.
5/9/2025 9:02:00 AM

全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

DeepSeek的含金量还在上升。 就在最近,Hugging Face联创、首席科学家Thomas Wolf表示——DeepSeek的出现,是开源AI领域的ChatGPT时刻! 用他的话说,「正如ChatGPT让全世界认识到AI的存在,DeepSeek则让全世界意识到,原来还有着这样一个充满活力的开源社区。
5/9/2025 8:55:00 AM
新智元

WisdomAI 斥资2300万美元推出创新商业智能平台,重塑企业数据洞察 ​

WisdomAI 近日正式发布,并获得了230万美元的融资,由 Coatue Ventures 领投,Madrona、GTM Capital 和 The Anthology Fund 参与。 WisdomAI 的目标是解决传统商业智能工具的局限性,推出了首个 Agentic 数据洞察平台,帮助企业从分散的数据生态系统中获取主动、上下文相关且即时的洞察。 许多财富100强企业,如思科和康菲石油,已经开始使用 WisdomAI,挖掘那些被数据孤岛掩埋、延迟在仪表盘上或卡在过时报告系统中的深层洞察。
5/8/2025 5:00:57 PM
AI在线

一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二

基于文本指令的图像编辑任务一直都是图像生成、编辑领域的一大热点,从Prompt2prompt到InstructPix2Pix,从EmuEdit再到最新的GPT4o,都在不断的拔高AI图像编辑的水平。 总的来说,这些模型可以归为两大类:一种是免训练(training-free)图像编辑,一种是基于训练或微调的图像编辑。 免训练图像编辑多通过对一个预训练文生图diffusion大模型进行提示词替换、操纵注意力图、图像反演等操作实现,尽管省去了训练的耗费,但其操作过程往往较为复杂且编辑效果不稳定、编辑任务种类单一。
5/7/2025 1:51:49 PM
新智元

搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核

本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练,实现了超越 o3 和 o4-mini 的顶级推理表现。 对此,机器学习社区表现出了极大的兴趣。
5/7/2025 1:46:34 PM

颠覆传统RAG,创新大模型检索增强—Insight-RAG

RAG已经成为大模型的标题,但传统方法存在检索深度不足、难以整合多源信息等弊端,例如,传统 RAG 依赖表面相关性检索文档,容易忽略单个文档内深埋的信息。 在法律协议中,会忽略微妙的合同条款;在商业报告里,错过隐藏的数据趋势。 所以,Megagon实验室的研究人员提出了一种创新框架Insight-RAG,从而更好地捕捉任务特定的细微信息,整合的数据质量也更高。
4/29/2025 9:15:49 AM
AIGC开放社区

猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火

今天凌晨,从昨晚开始预热、备受全球 AI 圈关注的 Qwen3 系列模型终于正式亮相了! Qwen3 模型依旧采用宽松的 Apache2.0 协议开源,全球开发者、研究机构和企业均可免费在 HuggingFace、魔搭社区等平台下载模型并商用,也可以通过阿里云百炼调用 Qwen3 的 API 服务。 HuggingFace 地址: 地址: 地址:::,Qwen3 系列模型包含两款 MoE 模型以及六款密集模型,其中每一款又包含更多细分版本(比如基础版和量化版):MoE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B;其中 235B 和 30B 分别是总参数量,22B 和 3B 分别是激活参数量。
4/29/2025 9:06:00 AM
机器之心

不用等R2了!第三方给新版DeepSeek V3添加深度思考,推理101秒破解7米甘蔗过2米门

DeepSeek即将发布R2? ? 坊间传闻越来越多了,且难辨真假。
4/29/2025 9:03:00 AM
量子位