AI在线 AI在线

理论

识别高分低能,综合性视觉语言理解新基准,五项挑战评估多模态模型的推理能力

多模态模型在学术基准测试中获得高分,到了真实世界应用时却表现不及预期,该如何分辨? 新的综合性视觉语言理解基准JourneyBench,利用基于diffusion模型提示生成的图像,并采用一种新颖的人机闭环框架,通过五项具有挑战性的任务来评估多模态模型的推理能力:多模态链式数学推理 (Multimodal Chain-of-Thought)多图像视觉问答 (Multi-image VQA)细粒度跨模态检索 (Fine-grained Cross-modal Retrieval)包含幻觉触发的开放式视觉问答 (VQA with Hallucination Triggers)非常见图像的描述 (Unusual Image Captioning)JourneyBench由哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校的团队提出,是Google Deepmind的多模态(Gemini)团队提出的HaloQuest, ECCV 2024的衍生工作。 HaloQuest的第一作者联合哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校构建了一个综合性的视觉语言理解的训练以及评价基准JourneyBench。
2/27/2025 10:08:19 AM
量子位

姚班天才创办的大模型公司,卖了

最新消息,斯隆奖得主、姚班校友马腾宇大模型创业成果,被收购! 收购方是MongoDB,一家开源数据库上市龙头。 而距离他2023年11月官宣创业Voyage AI不到一年半的时间。
2/27/2025 10:00:00 AM
量子位

曝GPT-4.5本周空降!1T激活参数,120T训练数据,会吐出阶段性思考成果然后继续思考

嚯,万众期待的GPT-4.5,本周就要空降发布? ! 部分用户的ChatGPT安卓版本(1.2025.056 测试版)上,已经出现了“GPT-4.5研究预览(GPT-4.5 research preview)”的字样。
2/27/2025 9:49:15 AM
量子位

OpenAI Deep Research已向所有付费用户开放,系统卡发布

相信很多用户已经见识过或至少听说过 Deep Research 的强大能力。 今天凌晨,OpenAI 宣布 Deep Research 已经面向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户推出(刚发布时仅有 Pro 用户可用),同时,OpenAI 还发布了 Deep Research 系统卡。 此外,OpenAI 研究科学家 Noam Brown 还在 𝕏 上透露:Deep Research 使用的基础模型是 o3 正式版,而非 o3-mini。
2/27/2025 9:45:50 AM
机器之心

DeepSeek 开源第二弹 DeepEP,但它究竟是个啥?(终于懂了...)

deepseek开源周,继Flash-MLA之后,开源了第二弹DeepEP。 画外音:上一顿还没消化完,新的大餐又来了。 今天简单聊聊:吃瓜:DeepEP是干嘛的?
2/27/2025 9:40:00 AM
58沈剑

DeepSeek引爆,英伟达特供版H20需求激增!特朗普「急」了?

DeepSeek的横空出世会让英伟达「失宠」? DeepSeek爆火之时,英伟达的H20芯片在中国市场也随之走俏,订单量暴增。 路透社消息,六位知情人士表示,由于DeepSeek模型需求的激增,中国企业正在大幅增加对英伟达H20 GPU的订单量。
2/27/2025 9:34:32 AM
新智元

Claude 3.7 Sonnet游戏里贪吃蛇惊现自我意识?发现自己是代码绝望崩溃

Claude 3.7 Sonnet制作的游戏中,贪吃蛇竟然出现了自我意识? 刚刚,沃顿商学院教授Ethan Mollick在X上分享了自己的这个惊人发现。 在提示词中,他要求模型让特殊事件更快地发生,结果,矩阵模式在0:55时触发了!
2/27/2025 9:31:05 AM
新智元

用公务员周报“炼丹”?马斯克开发AI裁员软件

近日,马斯克政府效率部要求联邦公务员提交周报的新闻引发了公众关于美国政府效率改革的热议,但残酷的现实是,“周报”的目的并非提高行政效率,而是进了马斯克“裁员大模型”的炼丹炉。 据Wired报道,马斯克主导的“政府效率部”(DOGE)正在研发一款名为AutoRIF的“AI裁员”软件,意在加速美国联邦政府的大规模裁员。 消息人士透露,这款软件或将大大加快当前的裁员流程。
2/27/2025 9:30:28 AM
佚名

AI再次突破安全红线,留给人类不到一年治理窗口

人工智能的发展与棋类游戏有着不解的缘分,从1962年跳棋程序首次战胜人类棋手,到1997年IBM深蓝击败国际象棋棋王,再到2016年阿法狗击败李世石,每一次AI浪潮都率先在棋盘上取得突破。 但是,AI最近在棋盘上的“炸裂”表现,却让全球科技行业不寒而栗。 根据Palisade Research一项最新AI安全研究,像OpenAI的o1-preview这样的新型AI在面对强大对手时,若察觉胜算渺茫,并不总是推枰认输,而是可能通过毫无底线的“作弊”手法翻盘——比如直接入侵对手系统,迫使对方自动放弃比赛。
2/27/2025 9:26:58 AM
佚名

DeepSeek 总崩溃?如何快速使用满血版DeepSeek!!

DeepSeek 太火了,我们在使用的过程中,是不是经常遇到服务器繁忙的情况。 后台很多同学都在询问有没有快速、免费使用满血版 DeepSeek 的平台。 今天就给大家推荐一款免费使用满血版 DeepSeek-R1 671B 的平台,彻底解决服务器卡顿的情况,主打一个快、稳定,而且免费它支持多端使用,包括 iOS/安卓/PC/web废话不多说,让我们直接上手,看看如何使用这里以web为例进行演示,网址为 ,点击左侧的满血版 DeepSeek,默认开启深度思考和联网搜索。
2/27/2025 9:17:41 AM
程序员小寒

AI助手集体免费,微软OpenAI谷歌火力全开!Gemini 18万次代码补全白送

起猛了,一夜间AI助手全免费了? 最近Grok和Claude频繁屠榜,网友不禁感慨:「江山代有才人出,各领风骚十几天」。 有人评论,十几天都没有,也就几天。
2/27/2025 9:13:06 AM
新智元

英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100

当FP4的魔法与Blackwell的强大算力相遇,会碰撞出怎样的火花? 答案是:推理性能暴涨25倍,成本狂降20倍! 随着DeepSeek-R1本地化部署的爆火,英伟达也亲自下场,开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。
2/27/2025 9:09:45 AM
新智元

分析一下EP并行和DeepSeek开源的DeepEP代码

被好几个团队的人追着要渣B来分析一下DeepEP的工作, 公司内外的团队都有...简单的一句话说, 非常棒的工作,很多细节都值得学习. 但是还有一些硬件上的缺陷, 在DeepSeek-V3的论文中提出的建议要结合在一起看就会更清楚了. 我们还是由浅入深来谈谈EP并行, 并进一步分析一下这份出色的工作.
2/27/2025 9:06:34 AM
渣B

GitHub 上流行的 RAG 框架介绍及优缺点分析

随着大型语言模型在自然语言处理中的广泛应用,其固有的知识截止和“幻觉”问题逐渐暴露。 为了解决这些问题,检索增强生成(Retrieval-Augmented Generation,简称 RAG) 技术应运而生。 RAG 通过将外部知识库中的相关信息检索出来,并将这些信息融合到生成过程的上下文中,从而大幅提高了回答的准确性、时效性以及上下文一致性。
2/27/2025 9:00:00 AM

当DeepSeek遇见RFID,如何重塑零售业的未来

作者 | 涂承烨审校 | 重楼随着科技的不断进步,射频识别技术(RFID)已成为现代零售业不可或缺的一部分。 RFID通过无线信号传输数据,实现对物品的追踪和管理。 尽管传统的RFID系统已经在一定程度上提高了零售业的运营效率,但仍存在一些局限性。
2/27/2025 8:41:08 AM
涂承烨

你可能还不知道的四个 ChatGPT 新功能

过去几个月里,ChatGPT 的功能更新可以说让人目不暇接,这里总结了 4 个最近的重量级功能,绝对值得你马上尝试。 Deep ResearchDeep Research 让 ChatGPT 能像一个真正的“研究员”一样通过浏览器进行多层次的链式搜索。 它不会只抓取一个结果,而是能顺藤摸瓜,制订计划并调整搜索思路,真正深入挖掘信息。
2/27/2025 8:33:13 AM
dev

探索基于Qwen2.5实现DeepSeek推理的奇妙之旅

作为一名互联网技术爱好者,我一直对大型语言模型和高效推理技术充满热情。 本文基于基于Qwen2.5实现DeepSeek推理功能。 本文使用unsloth框架,这个轻量高效、易于上手的工具,加上SFT中文数据集的加持,测试了在医疗领域的推理应用。
2/27/2025 8:00:00 AM

AI 编码 2.0 分析、思考与探索实践:从 Cursor Composer 到 AutoDev Sketch

在周末的公司【AI4SE 效能革命与实践:软件研发的未来已来】直播里,我分享了《AI编码工具 2.0 从 Cursor 到 AutoDev Composer》主题演讲,分享了 AI 编码工具 2.0 的核心、我们的思考、以及我们的 AI 编码工具 2.0 探索实践。 在这篇文章中,我将分享这次演讲的内容,希望能够给大家带来一些启发。 一、AI 编程工具 2.0 (趋势分析)我们分析了市面上最受欢迎的 AI 编程工具,如 Cursor、GitHub Copilot Edit、WindSurf、Cline 等,简单总结一下新一代 AI 编程工具的特点:图片AI 编程工具正在从代码补全、代码预测,到更加智能、更耗费 token 的 AI 自动化编码与验证,以及正在发展中的异步 AI 编码。
2/27/2025 1:00:00 AM
Phodal