AI在线 AI在线

理论

英伟达提出最强「描述一切」模型 (DAM),可生成图像或视频特定区域的详细描述,拿下7个基准SOTA!

英伟达提出「描述一切」模型 (DAM),这是一个强大的多模态大型语言模型,可以生成图像或视频中特定区域的详细描述。 用户可以使用点、框、涂鸦或蒙版来指定区域,DAM 将提供这些区域的丰富且符合上下文的描述。 相关链接论文::::详细的本地化图像和视频字幕详细本地化字幕 (DLC)详细局部字幕 (DLC) 的任务是生成图像中特定区域的全面且情境感知的描述。
5/7/2025 10:10:36 AM

南洋理工 & 牛津 & 新加坡理工提出Amodal3R,可从遮挡 2D 图像重建完整 3D 资产,3D生成也卷起来了!

Amodal3R 是一种条件式 3D 生成模型,能够从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观,显著提升遮挡场景下的 3D 重建质量。 给定图像中 部分可见的物体,Amodal3R 重建具有合理几何形状和合理外观的语义上有意义的 3D 资产。 相关链接论文:::即将开放...模型:: 的示例结果。
5/7/2025 10:09:49 AM
AIGC Studio

掷30亿美元,OpenAI史上最大收购案!

OpenAI史上最大一笔收购即将敲定。 彭博爆料称,OpenAI将豪掷30亿美元,吞并了爆火编码神器Windsurf(前身为Codeium)。 此前,早有外媒曝出了这笔交易,目前离最终达成接近尾声。
5/7/2025 10:09:28 AM
新智元

Gemini 2.5 Pro再更新!编程能力屠榜!一句话、一张草图变应用

出品 | 51CTO技术栈(微信号:blog51cto)AI 编码模型的新王者登基了! 今天,Google 旗下的 DeepMind AI 研究部门正式发布了 Gemini 2.5 Pro “I/O” 版,这是今年 3 月推出的 Gemini 2.5 Pro 多模态大语言模型(LLM)的更新版本。 DeepMind CEO Demis Hassabis 在 X 上表示:“这是我们迄今为止打造的最佳编码模型!
5/7/2025 10:09:08 AM

刚刚,Gemini 2.5 Pro升级,成编程模型新王

你的默认编程模型是什么? 或许可以换一换了。 刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。
5/7/2025 10:01:35 AM

微软正式开源UFO²,Windows桌面迈入「AgentOS 时代」

本论文第一作者为微软 DKI 团队的 Chaoyun Zhang,其为 Windows 平台首个智能体系统 ——UFO 的核心开发者,该项目已在 GitHub 上开源并获得约 7,000 Stars,在社区中引发广泛关注。 同时,他也是一篇超过 90 页的 GUI Agent 综述文章的主要撰写者,系统梳理了该领域的关键进展与技术框架。 其余项目的主要贡献者亦均来自微软 DKI 团队,具备深厚的研究与工程背景。
5/7/2025 9:16:00 AM

谷歌突发大招刷爆AI编程榜!网友:不用买Cursor了

因为大家太过热情, Gemini 2.5提前重磅更新——史上最强编码模型Gemini 2.5 Pro Preview的I/O版。 只需一张手绘的草图,就可以构建一个「绘图变音频」的网页版应用。 其他游戏、对象模拟等等也都可以通过一句提示完全搞定。
5/7/2025 9:14:26 AM

AI再破2000年前「上古卷轴」!古希腊著作原文首次重见天日

AI再建一功! 火山灰掩埋的古代智慧,正在被AI一点点复活。 2025年5月6日,维苏威挑战赛(Vesuvius Challenge)迎来历史性突破——研究人员首次非侵入性地读取了仍然卷着的编号为PHerc.
5/7/2025 9:14:00 AM

ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键

大型语言模型(LLMs)在上下文知识理解方面取得了令人瞩目的成功。 近日,一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要现象:在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值,而在值 (V) 表示中却没有这种模式。 这一现象在使用旋转位置编码 (RoPE) 的现代 Transformer 模型中普遍存在,对我们理解 LLM 内部工作机制具有重要意义。
5/7/2025 9:12:00 AM

GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画

上个月, GPT-4o 的图像生成功能爆火,掀起了以吉卜力风为代表的广泛讨论,生成式 AI 的热潮再次席卷网络。 而在这股浪潮背后,潜在空间(Latent Space)作为生成模型的核心驱动力,点燃了图像与视频创作的无限想象。 知名研究者 Andrej Karpathy 最近转发了一篇来自 Google DeepMind 研究科学家 Sander Dielman 的博客文章,探讨了生成模型(如图像、音频和视频生成模型)如何通过利用潜在空间来提高生成效率和质量。
5/7/2025 9:06:00 AM

微软将大量AI功能、智能体集成在Windows11,全民AI时代来了

今天凌晨,微软在官网发布了以AI为主题的新版Windows 11。 本次集成的AI功能非常多,涵盖搜索、设置、文件管理、画图、截图、Copilot等,同时还推出了以Copilot PC为主的全新Surface商务笔记本。 下面「AIGC开放社区」将根据官方内容为大家详细解读这些功能。
5/7/2025 9:01:00 AM

H-MBA层次化MamBa模型如何突破自动驾驶视频理解瓶颈?这三大创新亮点揭示答案!

一眼概览:H-MBA (Hierarchical MamBa Adaptation) 提出了一个创新的多模态视频理解框架,通过结合高低时域分辨率,显著提升了自动驾驶场景中的视频理解和风险物体检测性能。 核心问题:现有的多模态大语言模型(MLLMs)在处理自动驾驶中复杂的时空动态视频时,性能有限。 特别是在捕捉背景变化、车辆和行人运动等方面,现有方法难以做到准确的时空理解。
5/7/2025 8:49:17 AM
萍哥学AI

RAG 中的语义分块:实现更优的上下文检索

检索增强生成(RAG)技术异军突起,席卷了整个大语言模型领域。 通过将大语言模型(LLMs)的强大能力与外部知识检索相结合,RAG使得模型能够生成准确且有依据的回复,即便在专业领域也不例外。 在每一个表现卓越的RAG流程背后,都有一个默默发挥关键作用的 “英雄”:分块技术,尤其是语义分块。
5/7/2025 8:35:11 AM
大模型之路

SmallRye大模型简介:使用Langchain4J轻松向应用内引入AI服务

译者 | 核子可乐审校 | 重楼Langchain4J解决了哪些问题? Langchain4J 本质上是为 Java 开发者打造的工具箱,旨在简化向高级语言中集成 AI 功能(如聊天机器人或文本生成器)的过程,同时屏蔽底层复杂细节。 想象一下:我们想要构建一个能回答问题、生成内容或模拟人类对话的智能应用。
5/7/2025 8:14:58 AM
核子可乐

当人工智能脱离人类监督:自维持系统的网络安全风险

译者 | 晶颜审校 | 重楼人工智能正从执行预定义指令的工具,进化为具备自我修改、参数重写及实时反馈进化能力的复杂系统。 这种被称为“自创生”的自维持特性,使其能动态适应环境以提升效率,但也带来不可预测性。 对网络安全团队而言,传统安全模型基于“威胁来自外部”的假设——即恶意行为者利用稳定系统漏洞实施攻击。
5/7/2025 8:07:09 AM
晶颜

100个Python机器学习小技巧,让你速通ML

构建机器学习模型是数据科学的关键环节,涉及运用算法进行数据预测或挖掘数据中的模式。 本文分享一系列简洁的代码片段,涵盖机器学习过程的各个阶段,从数据准备、模型选择,到模型评估和超参数调优。 这些代码示例能帮助你使用诸如Scikit-Learn、XGBoost、CatBoost、LightGBM等库,完成常见的机器学习任务,还包含使用Hyperopt进行超参数优化、利用SHAP值进行模型解释等高级技术。
5/7/2025 7:17:18 AM
学研君

比人类更有说服力,AI被滥用成舆论操控隐形推手?

近年来,人工智能(AI)技术飞速发展,给人类社会带来诸多便利。 特别是大模型的飞速发展,对医疗、教育、交通等诸多领域带来了深刻变革。 然而,如同硬币的两面,AI在给人类社会带来诸多便利的同时,其滥用现象也逐渐浮出水面。
5/7/2025 6:00:00 AM
Yu

2025年的CIO现状:CIO制定AI议程

如今,随着对AI的关注,Tractor . Supply公司再次凭借其在AI领域的早期投资占据了领先地位,这些投资包括用于销售和商品预测以及优化商品补货的AI技术。 最近,Tractor .
5/7/2025 5:00:00 AM
Beth Stackpole