AI

AI Agent 体如何改变我们与网页的互动方式

AI Agent 体如何改变我们与网页的互动方式

AI 智能体（像 OpenAI Operator 这样的）能帮你自动完成网上找产品、管理浏览器标签等任务，简直是解放双手！但要让这些智能体真正派上用场，挑战可不小。这篇文章会聊聊 AI 智能体在网页互动中的现状、痛点，以及一个叫 Agentic Web Interfaces (AWIs) 的新解决方案。

7/1/2025 2:10:00 AM AI研究生

视觉语言模型如何突破感知边界？上海 AI 新势力提出“世界意识”赋能真实环境规划

视觉语言模型如何突破感知边界？上海 AI 新势力提出“世界意识”赋能真实环境规划

——如何让多模态智能体真正“看懂”世界并做出复杂决策“把切好的苹果片冰一下再丢进垃圾桶”——这样一条看似普通的自然语言指令，若让一台具身智能体（Embodied Agent）执行，其背后实则隐藏了多步规划、常识应用、环境理解、工具使用等一系列交互复杂度极高的子任务。如何让 AI 理解任务的潜台词、合理分解步骤，并在真实视觉输入中找准对象并正确执行，正是当前具身智能与多模态学习面临的最大挑战之一。具身智能与多模态规划的研究背景具身智能（Embodied Intelligence）可以被视为 AI 研究“从认知走向行为”的转折点。

7/1/2025 1:35:00 AM FlerkenS

VSCode AI 编程必装！五款DeepSeek集成插件，每款都让开发效率飙升

VSCode AI 编程必装！五款DeepSeek集成插件，每款都让开发效率飙升

AI 大模型对编程的影响已深入技术前沿，以 Cursor 为代表的对话式编程工具正融入开发工作流。作为 AI 编程领域的明星产品，Cursor 功能虽强，但价格较高，因此开发者们需要寻找免费替代品。 VSCode 的性价比优势明显，其免费 AI 编程插件在性能上与 Cursor 相当，且伴随 DeepSeek 等国产大模型崛起，插件生态已完成对其适配。

7/1/2025 1:33:00 AM 学研君

微软新推出的小语言模型Mu，是端侧AI的最优解吗？

微软新推出的小语言模型Mu，是端侧AI的最优解吗？

上周，微软宣布推出一款名为“Mu”的新型生成式人工智能（GenAI）系统，它让我们得以一窥未来我们使用各种设备（从个人电脑到烤面包机）的方式。借助“Mu”，用户能够通过日常语言来操控电脑。例如，你可以键入或说出“打开暗黑模式”或“让我的鼠标指针变大”等指令，电脑便会照做。

7/1/2025 1:00:00 AM

React + AI = ？

React + AI = ？

AI 的飞速发展正在重塑前端开发的边界。除了生成 UI、编写代码，AI 现在具备了更强的“执行能力”——而 MCP，正是实现这一能力的关键技术。 2024 年 11 月，Anthropic 提出了 MCP（Model Context Protocol），一个开放协议，旨在为 AI 模型提供标准化的接口，用于调用外部工具与数据源，从而生成更准确、更具上下文理解的响应。

7/1/2025 12:00:00 AM CUGGZ

美国团队开发 AI 工具，只需一次脑扫描即可识别多种痴呆症

美国团队开发 AI 工具，只需一次脑扫描即可识别多种痴呆症

美国妙佑医疗国际研发的AI工具StateViewer，通过单一脑部扫描即可识别九种痴呆症，准确率达88%，诊断速度提升两倍。该工具可帮助缺乏专业神经科资源的诊所实现精准诊断。#痴呆症诊断##AI医疗#

6/30/2025 6:28:36 PM 远洋

亚马逊云科技全球首席企业战略总经理谈AI转型：85% 的 IT 预算都可能花错了地方；最大挑战并非技术，而是文化

亚马逊云科技全球首席企业战略总经理谈AI转型：85% 的 IT 预算都可能花错了地方；最大挑战并非技术，而是文化

编辑 | 云昭嘉宾 | Phil Le-Brun“我是做技术出身的，但大多数时候听起来更像是心理学家。 ”当 Phil Le-Brun 被问及如何推动企业进行全球转型时，半开玩笑得把自己比喻成“心理学家”。在他看来，无论是数字化转型还是现在的AI转型，其实真正要改变的是思维方式，而然后辅之以技术的配合。

6/30/2025 6:08:50 PM 云昭

Claude 开便利亏麻了！AI 被忽悠商品、打折成瘾，最后精神错乱…

Claude 开便利亏麻了！AI 被忽悠商品、打折成瘾，最后精神错乱…

近日，人工智能公司 Anthropic 进行了一项实验。他们让自家的人工智能模型Claude，在办公室里经营一家小型实体商店，目标是测试人工智能在现实经济中自主运行的能力。该实验是 Anthropic 与人工智能安全评估公司 Andon Labs 合作，他们将这个项目命名为“Project Vend”。

6/30/2025 2:04:56 PM

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

赵天辰，清华大学电子工程系高能效计算实验室研究生，研究方向主要是：面向视觉生成的高效算法，与软硬件协同设计近年来，随着视觉生成模型的发展，视觉生成任务的输入序列长度逐渐增长（高分辨率生成，视频多帧生成，可达到 10K-100K）。与输入序列长度呈平方复杂度的 Attention 操作，成为主要的性能瓶颈（可占据全模型的 60-80% 的开销），有明显的效率优化需求。注意力的稀疏化（Sparse Attention）与低比特量化（Attention Quantization）为常用的 Attention 优化技巧，在许多现有应用中取得优秀的效果。

6/30/2025 2:02:00 PM

ChatGPT化身生活操作系统：奥特曼预告下一代顶级AI

ChatGPT化身生活操作系统：奥特曼预告下一代顶级AI

OpenAI计划发布一个非常强大的开源模型。它能够让人们在本地运行极其强大的模型，重新认识“本地部署”的可能性。在旧金山AI初创学校对话中，奥特曼宣布了以上消息。

6/30/2025 2:00:36 PM

AI编程里程碑！谷歌AI自己写代码惊呆工程师，GPU内核算法反超人类21%

AI编程里程碑！谷歌AI自己写代码惊呆工程师，GPU内核算法反超人类21%

谷歌的AlphaEvolve，还在不断创造新的奇迹。在5月中旬，谷歌扔出的这个炸弹（号称是数学界AlphaGo的「第37步」时刻），就在不断冲击人们的认知——AI，已经拥有了自我进化能力！随后，不断有开发者用代码证实，AlphaEvolve的矩阵乘法突破为真！

6/30/2025 2:00:14 PM

RAG终极框架！港大开源RAG-Anything：统一多模态知识图谱

RAG终极框架！港大开源RAG-Anything：统一多模态知识图谱

RAG-Anything的核心技术创新在于构建了统一的多模态知识图谱架构，能够同时处理并关联文档中的文字内容、图表信息、表格数据、数学公式等多种类型的异构内容，解决了传统RAG系统仅支持文本处理的技术限制，为多模态文档的智能理解提供了新的技术方案。项目地址：: （RAG）系统，专注解决复杂场景下的智能问答与信息检索难题。该系统提供完整的端到端多模态文档处理解决方案，能够统一处理文本、图像、表格、数学公式等多种异构内容，实现从文档解析、知识图谱构建到智能问答的全流程自动化，为下一代AI应用提供了可靠的技术基础。

6/30/2025 1:57:59 PM

百度文心大模型4.5系列正式开源，同步开放API服务

百度文心大模型4.5系列正式开源，同步开放API服务

百度文心大模型开源，如期而至。就在今天，百度官宣文心大模型4.5系列正式开源，还同步提供API服务。此番，百度一次性推出10款开源模型，涵盖从47B参数的混合专家（MoE）模型到轻量级0.3B稠密型模型，覆盖文本、多模态等多种任务需求。

6/30/2025 1:54:34 PM

甭提静态AI了，MIT新框架让模型具备自学能力

甭提静态AI了，MIT新框架让模型具备自学能力

作者 | Ben Dickson编译 | 沈建苗出品 | 51CTO技术栈（微信号：blog51cto）近日，麻省理工学院（MIT）的研究人员已开发出一种名为自适应语言模型（SEAL）的框架，使大语言模型（LLM）能够通过更新自身的内部参数来持续学习和适应。 SEAL可以教LLM生成自己的训练数据并更新指令，让LLM能够永久吸收新知识并学习新任务。这种框架特别适用于企业应用环境，尤其适用于在动态环境中运行的AI智能体，它们必须不断处理新信息并调整其行为。

6/30/2025 1:10:37 PM

OpenAI 停工一周，紧急调薪！Meta灭霸式天价挖8名OpenAI大佬！紧急回应：我们被偷家了！与Meta冲突是支线任务！

OpenAI 停工一周，紧急调薪！Meta灭霸式天价挖8名OpenAI大佬！紧急回应：我们被偷家了！与Meta冲突是支线任务！

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）又是震惊 AI 圈的一天。进入 6 月，Meta 与 OpenAI 的主旋律变成了一场关于“研究人才”的攻防红蓝对决。而让人没想到的是 Meta 的高调挖角 OpenAI，疯狂的阵势强度已经到堪比“黑五抢购天才大脑”一般。

6/30/2025 1:03:13 PM 云昭

奥特曼慌了！OpenAI连夜加薪全员放假，小扎疯狂挖人高管震怒

奥特曼慌了！OpenAI连夜加薪全员放假，小扎疯狂挖人高管震怒

小扎抢人大战，彻底把OpenAI整慌了。 OpenAI首席研究官Mark Chen直言，「现在，我感觉就像有人闯进我们的家，偷走了我们的东西一样」。这份来自Wired的独家爆料，挖出了OpenAI七大高管向全员发布了一份强硬的备忘录。

6/30/2025 9:42:01 AM 新智元

马斯克生日惊喜！全球首例Model Y无人「自驾交付」，30分钟见证历史

马斯克生日惊喜！全球首例Model Y无人「自驾交付」，30分钟见证历史

就在昨天，一个足以载入史册的时刻悄然到来。一辆特斯拉Model Y从得州超级工厂缓缓驶出，没有驾驶员，没有安全员，也没有远程操控员。它独自穿越城市街道，上下高速公路，以最高约115公里/小时（72英里/小时）的速度，在30分钟内平稳地把自己交付给主人。

6/30/2025 9:12:00 AM

不会被AI替代？100年前的农民也这么想的，这些图表让你害怕！

不会被AI替代？100年前的农民也这么想的，这些图表让你害怕！

「我的岗位太复杂不会被AI替代的」。如果你还在抱着这种看法来看待如今的AI时代，那你99%要完蛋了。 SAFE.没有任何工作是安全的。

6/30/2025 9:07:00 AM

资讯热榜

AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉