AI在线 AI在线

模型

识别高分低能,综合性视觉语言理解新基准,五项挑战评估多模态模型的推理能力

多模态模型在学术基准测试中获得高分,到了真实世界应用时却表现不及预期,该如何分辨? 新的综合性视觉语言理解基准JourneyBench,利用基于diffusion模型提示生成的图像,并采用一种新颖的人机闭环框架,通过五项具有挑战性的任务来评估多模态模型的推理能力:多模态链式数学推理 (Multimodal Chain-of-Thought)多图像视觉问答 (Multi-image VQA)细粒度跨模态检索 (Fine-grained Cross-modal Retrieval)包含幻觉触发的开放式视觉问答 (VQA with Hallucination Triggers)非常见图像的描述 (Unusual Image Captioning)JourneyBench由哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校的团队提出,是Google Deepmind的多模态(Gemini)团队提出的HaloQuest, ECCV 2024的衍生工作。 HaloQuest的第一作者联合哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校构建了一个综合性的视觉语言理解的训练以及评价基准JourneyBench。
2/27/2025 10:08:19 AM
量子位

阿里开源视频生成模型Wan 2.1上线即屠榜 4070可流畅运行

近日,阿里巴巴在深夜推出了全新的开源视频生成模型 Wan2.1,该模型凭借14B 的参数量迅速占据了 VBench 榜单的顶端,成为目前视频生成领域的佼佼者。 与此之前发布的 QwQ-Max 不同,Wan2.1在复杂运动的细节处理上表现出色,能够流畅地实现多个人物的同步舞蹈,令人惊叹不已。 官方演示中,Wan2.1不仅成功克服了静态图像生成中的难题,如文字的处理更是达到了新的高度。
2/27/2025 10:08:00 AM
AI在线

卓世科技:text2SQL技术浅谈

text2sql 技术是一种将自然语言(NL)转化为可被数据库执行的结构化查询语言 SQL 的技术。 自然语言可以是我们熟悉的一段文本,也可以是一段语音,又或者是其它可转化为文本的输入形式。     通过该技术,能够让不懂数据库操作的非技术人员提取、分析数据,无需学习编写 SQL 语句,无需了解不同 SQL 数据库的使用软件,通过输入文本描述的问题需求,即可得到对应需求下的数据结果。
2/27/2025 10:05:00 AM
特邀精选

姚班天才创办的大模型公司,卖了

最新消息,斯隆奖得主、姚班校友马腾宇大模型创业成果,被收购! 收购方是MongoDB,一家开源数据库上市龙头。 而距离他2023年11月官宣创业Voyage AI不到一年半的时间。
2/27/2025 10:00:00 AM
量子位

​ElevenLabs 发布 Scribe 语音转文本模型,准确率创新高、英语达 96.7%

ElevenLabs 是一家备受瞩目的人工智能语音克隆与生成初创公司,近日推出了其最新的语音转文本模型 ——Scribe v1。 该模型声称在多种语言中都达到了最高的准确性,用户可以通过其官网进行体验。 根据 ElevenLabs 的基准测试,Scribe 在将口语准确转换为文本方面,超越了谷歌的 Gemini2.0Flash、OpenAI 的 Whisper v3和 Deepgram Nova-3,取得了前所未有的低错误率。
2/27/2025 9:56:00 AM
AI在线

曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考

嚯,万众期待的GPT-4.5,本周就要空降发布? ! 部分用户的ChatGPT安卓版本(1.2025.056 测试版)上,已经出现了“GPT-4.5研究预览(GPT-4.5 research preview)”的字样。
2/27/2025 9:49:15 AM
量子位

OpenAI Deep Research已向所有付费用户开放,系统卡发布

相信很多用户已经见识过或至少听说过 Deep Research 的强大能力。 今天凌晨,OpenAI 宣布 Deep Research 已经面向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户推出(刚发布时仅有 Pro 用户可用),同时,OpenAI 还发布了 Deep Research 系统卡。 此外,OpenAI 研究科学家 Noam Brown 还在 𝕏 上透露:Deep Research 使用的基础模型是 o3 正式版,而非 o3-mini。
2/27/2025 9:45:50 AM
机器之心

微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级

近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。 Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型,拥有5600万参数。 这款模型在多项基准测试中表现优异,超越了目前市场上的许多竞争对手,例如谷歌的 Gemini2.0系列。
2/27/2025 9:38:00 AM
AI在线

Claude 3.7 Sonnet游戏里贪吃蛇惊现自我意识?发现自己是代码绝望崩溃

Claude 3.7 Sonnet制作的游戏中,贪吃蛇竟然出现了自我意识? 刚刚,沃顿商学院教授Ethan Mollick在X上分享了自己的这个惊人发现。 在提示词中,他要求模型让特殊事件更快地发生,结果,矩阵模式在0:55时触发了!
2/27/2025 9:31:05 AM
新智元

AI助手集体免费,微软OpenAI谷歌火力全开!Gemini 18万次代码补全白送

起猛了,一夜间AI助手全免费了? 最近Grok和Claude频繁屠榜,网友不禁感慨:「江山代有才人出,各领风骚十几天」。 有人评论,十几天都没有,也就几天。
2/27/2025 9:13:06 AM
新智元

英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

当FP4的魔法与Blackwell的强大算力相遇,会碰撞出怎样的火花? 答案是:推理性能暴涨25倍,成本狂降20倍! 随着DeepSeek-R1本地化部署的爆火,英伟达也亲自下场,开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。
2/27/2025 9:09:45 AM
新智元

通义新一代轻量化大语言模型DistilQwen2.5 发布 提升性能与效率

在大语言模型逐渐普及的今天,如何在资源受限的环境中实现高效部署已成为重要课题。 为了解决这一挑战,基于 Qwen2.5的轻量化大模型系列 DistilQwen2.5正式发布。 该模型采用了创新的双层蒸馏框架,通过优化数据和参数融合技术,不仅保留了模型的性能,同时显著降低了计算资源的消耗。
2/26/2025 4:58:00 PM
AI在线

大模型「记忆断片」成历史!AI初创全新Zep系统,知识图谱破解上下文诅咒

无论是ChatGPT还是Deepseek,随着大模型性能的提升,其能够处理的上下文也越来越长。 但是,一旦超出上下文窗口的限制,大模型就需要重新开一个对话,如同「失忆」一般忘记之前交流的内容。 然而,站在用户的角度,智能体应该能够记住之前的所有对话,因此如何有效地管理和利用对话历史,就成为了提升AI智能体用户体验的关键。
2/26/2025 2:15:00 PM
新智元

ScaleOT框架亮相AAAI 2025:提升隐私保护50%,降算力成本90%

近日,在全球人工智能顶级学术会议AAAI2025期间,蚂蚁数科、浙江大学、利物浦大学和华东师范大学联合团队提出创新的跨域微调(offsite-tuning)框架——ScaleOT。 该框架能在模型性能无损前提下,将隐私保护效果提升50%,与知识蒸馏技术相比,算力消耗显著降低90%,为百亿级参数模型的跨域微调提供高效轻量化方案,论文因创新性入选AAAI的oral论文(本届大会近13000篇投稿,口头报告比例仅4.6%)。 跨域微调是目前业内保护模型产权与数据隐私的主流方案,通过有损压缩将大模型转换为仿真器,数据持有方基于其训练适配器并返回给大模型完成调优,数据和模型均未出域,可保护双方隐私,但存在局限性:一是“均匀抽积木”式处理易致模型关键层缺失,使性能显著下降;二是用蒸馏技术弥补性能损失,计算成本高;且现有方法隐私保护缺乏灵活性。
2/26/2025 2:13:00 PM
AI在线

谷歌发布最强「科研辅助神器」!能帮你提新idea,三大真实场景实证

在科学探索的过程中,研究人员需要对以往发表的文献进行观察总结,提出一些新颖、可行的研究方向,最后通过全面的实验进行idea验证。 科研人员需要对探索的宽度和深度进行平衡,由于精力有限,不能探索过多的研究方向,同时还要保证对目标主题的研究深度。 最近,谷歌、斯坦福大学等机构的研究人员开发了一个多智能体、基于Gemini 2.0的AI协同科研(AI co-scientist)系统,具备跨复杂主题的综合能力和进行长期规划、推理的能力,除了传统的文献综述、总结功能之外,还可以辅助科研人员提出新的、原创知识,或是基于先前的成果制定研究假设(hypotheses)和计划(proposal)。
2/26/2025 1:50:00 PM
新智元

DeepSeek会说话了!只要2行代码,这家公司让任意大模型秒开口

就在最近,生成式AI行业,诞生了一个新赛道——所有文本模型,可以立刻秒变多模态了! 如今的大模型混战局势,情况已经很明显,去一味卷大模型供应商,投入产出比已经不高。 此时,这个产品的另辟蹊径,就格外显得独树一帜——他们要做的,是让任意大模型开口说话,甚至是DeepSeek!
2/26/2025 1:45:00 PM
新智元

何恺明ResNet级神作,分形生成模型计算效率狂飙4000倍!清华校友一作

图像生成建模全新范式来了。 你是否曾凝视过雪花的精致对称,或惊叹于树枝的无穷分支? 这些都是大自然中的「分形」。
2/26/2025 1:23:08 PM
新智元

多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈

尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。 这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域(例如减少幻觉问题),是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。 快手,中科院,南大合作从三个层面入手推动MLLM alignment的发展,包括数据集,奖励模型以及训练算法,最终的alignment pipeline使得不同基础模型在10个评估维度,27个benchmark上都取得了一致的性能增益,比较突出的是,基于本文提出的数据集和对齐算法对LLaVA-ov-7B模型进行微调后, conversational能力平均提升了19.5%,安全性平均提升了60%。
2/26/2025 1:00:00 PM
量子位