AI

苹果一口咬死AI不会思考！OpenAI前高管直接开怼：AGI已来，别再酸了

最近，苹果发布了一篇论文，引发了关于AI是否真正在推理的激烈讨论。它提出了一个尖锐问题：当前的推理模型，是否已经触及能力的天花板？与此同时，OpenAI前研究主管Bob McGrew则持完全不同的态度。

6/30/2025 9:05:00 AM

媲美DeepSeek！腾讯开源新版混元模型：AI Agent强化，超30种智能体指令

6/30/2025 9:04:00 AM

刚刚，马斯克切脑全场震撼！插脑只要1.5秒，26年治愈失明，28年全人类变AI

就在刚刚，马斯克又整大活了！他带着脑机接口Neuralink团队，开了1小时发布会，整个过程亮点满满，全程高能。首先，Neuralink宣布，目前全球已经有七人植入了设备。

6/30/2025 9:03:00 AM

史上最惨AI店长！被顾客耍到破产，「人格觉醒」却忘了自己是代码

AI当店长，靠谱吗？想象一下：给一个AI完全控制一家小店的权力，不只是收银——而是一整个运营和管理。定价、库存、客服、供应商谈判、包括和顾客讨价还价，所有这些工作都由它亲自完成。

6/30/2025 9:01:00 AM

AI一眼认出95万物种，还能分辨雄雌老幼，2亿生物图像炼成“生命视觉”大模型

让AI看懂95万物种，并自己悟出生态关系与个体差异!俄亥俄州立大学研究团队在2亿生物图像数据上训练了BioCLIP 2模型。大规模的训练让BioCLIP 2取得了目前最优的物种识别性能。而更令人惊喜的是，即使在训练过程中没有相应监督信号，BioCLIP 2还在栖息地识别、植物疾病识别等5个非物种任务中给出了远超DINOv2的准确率。

6/30/2025 8:52:00 AM

航空发动机用上大模型：解决复杂时序问题，性能超越ChatGPT-4o实现SOTA｜上交创智复旦

时序数据分析在工业监控、医疗诊断等领域至关重要。比如航空发动机监控这个复杂工业场景中，工程师需分析海量多通道传感器数据，以判断设备状态并制定维护决策。然而，现有研究多聚焦于分类、预测等单一任务，与实际工业场景中专家通过自然语言进行复杂交互和决策的需求存在显著差异。

6/30/2025 8:51:00 AM

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

李浩然，CMU 机器学习系研究生，研究方向是基础模型的长上下文建模、对齐、以及检索增强生成。如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

6/30/2025 8:50:00 AM

华为CloudMatrix重磅论文披露AI数据中心新范式，推理效率超NV H100

今年，AI大厂采购GPU的投入又双叒疯狂加码——马斯克xAI打算把自家的10万卡超算扩增10倍，Meta也计划投资100亿建设一个130万卡规模的数据中心……GPU的数量，已经成为了互联网企业AI实力的直接代表。的确，建设AI算力，这种堆卡模式是最简单粗暴的，但实际上，AI集群却并非是卡越多就越好用。 GPU虽然计算性能好，但是在集群化的模式下依然有很多挑战，即便强如英伟达，也面临通信瓶颈、内存碎片化、资源利用率波动等问题。

6/30/2025 8:49:00 AM

图像界的DeepSeek！12B参数对标GPT-4o，5秒出图，消费级硬件就能玩转编辑生成

图像模型开源还得是FLUX！ Black Forest Labs刚刚宣布开源旗舰图像模型FLUX.1 Kontext[dev]，专为图像编辑打造，还能直接在消费级芯片上运行。只有小小的12B，更少的参数，更快的推理，性能更是媲美GPT-image-1等一众闭源模型。

6/30/2025 8:48:50 AM

盘一盘，2017年Transformer之后，LLM领域的重要论文

这两天 Andrej Karpathy 的最新演讲在 AI 社区引发了热烈讨论，他提出了「软件 3.0」的概念，自然语言正在成为新的编程接口，而 AI 模型负责执行具体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。他认为，我们不只是在使用新工具，更是在构建一种全新的计算范式。

6/30/2025 8:48:00 AM

充分激发模态协作，MokA量身打造MLLM微调新范式

本文第一作者卫雅珂为中国人民大学四年级博士生，主要研究方向为多模态学习机制、多模态大模型等，师从胡迪副教授。作者来自于中国人民大学和上海人工智能实验室。近年来，多模态大模型（MLLMs）已经在视觉语言、音频语言等任务上取得了巨大进展。

6/30/2025 8:44:00 AM

拯救P图废柴，阿里上新多模态模型Qwen-VLo！人人免费可玩

一上手就令网友直呼「生图能力」比GPT-4o更强？！就在昨夜，阿里带着全新多模态模型Qwen-VLo开启炸场模式。

6/30/2025 8:43:00 AM

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

本文第一作者为美国东北大学博士生沈轩，研究方向为高效人工智能，致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏，研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。在高质量视频生成任务中，扩散模型（Diffusion Models）已经成为主流。

6/30/2025 8:42:00 AM

ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成

本文第一作者是西湖大学博士生冯睿骐，通讯作者为西湖大学人工智能系助理教授吴泰霖。吴泰霖实验室专注于解决 AI 和科学交叉的核心问题，包含科学仿真、控制、科学发现。在解决离线强化学习、图片逆问题等任务中，对生成模型的能量引导（energy guidance）是一种可控的生成方法，它构造灵活，适用于各种任务，且允许无额外训练条件生成模型。

6/30/2025 8:36:00 AM

AgentAuditor：让智能体安全评估器的精确度达到人类水平

LLM 智能体（LLM Agent）正从 “纸上谈兵” 的文本生成器，进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动，向着通用人工智能（AGI）大步迈进。然而，这份 “自主权” 也带来了新的问题：智能体在自主交互中，是否安全？

6/30/2025 8:32:00 AM

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

作者简介：本文第一作者牛润良是吉林大学人工智能学院博士研究生，研究方向包括大模型智能体、强化学习，专注于 GUI Agent。通讯作者王琪为吉林大学人工智能学院研究员，研究方向包括数据挖掘、大模型、强化学习。迈向通用人工智能（AGI）的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。

6/30/2025 8:25:00 AM

CVPR 2025 | 零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征

当前大型视觉语言模型（LVLMs）普遍存在「物体幻觉」问题：模型会凭空生成图像中不存在的物体描述。为了高效地实现幻觉消除，西安交通大学研究团队提出了一种利用「幻觉子空间」（HalluSpace）进行零空间投影的高效模型权重编辑方法Nullu（Null space of HalluSpace）。论文地址：：：从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。

6/30/2025 8:15:00 AM

制药行业的AI应用图谱与数字化转型实战经验

制药行业正处于一个关键转折点，为了应对复杂药物研发与制造的挑战，向基于AI的技术转型不仅是可取的，而且是必不可少的。制药行业的未来取决于其能否拥抱数字化转型，并利用AI的力量来简化运营流程、增强问题解决和根本原因分析能力、推动持续改进以及在制药监管和合规环境中降低风险。制药行业的AI驱动未来预计AI将为制药行业带来每年600亿至1100亿美元的经济价值，这种未被充分挖掘的潜力主要源于AI在药物全生命周期中提高生产力的能力，能够根据复杂流程和操作工作流程量身定制，并且更容易根据用户需求进行个性化的数字工具将是关键。

6/30/2025 7:10:00 AM Andreas

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉