AI

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

将大语言模型（LLMs）与复杂的人类价值观对齐，仍然是 AI 面临的一个核心挑战。当前主要的方法是基于人类反馈的强化学习（RLHF）。该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分，最终对齐后的 LLM 的质量在根本上取决于该奖励模型的质量。

7/3/2025 9:41:27 AM

刚刚，神秘模型火了！网友：是OpenAI要开源？

刚刚，神秘模型火了！网友：是OpenAI要开源？

刚刚，OpenRouter 上出现了一个神秘模型，该模型被命名为「Cypher Alpha」。其可以免费使用，100 万 token 上下文，还具有推理能力。注：OpenRouter 是一个大模型 API 路由器，旨在将各种 AI 模型和服务集成到一个统一的接口中。

7/3/2025 9:31:52 AM

让GUI智能体不再「过度执行」，上海交大、Meta联合发布OS-Kairos系统

让GUI智能体不再「过度执行」，上海交大、Meta联合发布OS-Kairos系统

本文第一作者是上海交通大学计算机学院三年级博士生程彭洲，研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。一、论文概述1.1 研究背景随着多模态大语言模型（Multimodal Large Language Models, MLLMs）的快速发展，越来越多的研究聚焦于构建能够在图形用户界面（GUI）中执行复杂任务的智能体。

7/3/2025 9:27:57 AM

前不久，苹果差点犯下最愚蠢的错误

前不久，苹果差点犯下最愚蠢的错误

8年资深研究员离职，整个核心团队威胁集体跳槽，数百万美元的挖角邮包 —— 这不是什么好莱坞大片的剧情，而是最近一周苹果AI部门正在经历的真实危机。 6月30日，Bloomberg爆出一个让整个科技圈都震惊的消息：苹果最核心的AI团队MLX，差点就这么没了。具体发生了什么？

7/3/2025 9:19:28 AM 阿丸笔记

IEEE TPAMI 2025 | 北京大学提出LSTKC++，长短期知识解耦与巩固驱动的终身行人重识别

IEEE TPAMI 2025 | 北京大学提出LSTKC++，长短期知识解耦与巩固驱动的终身行人重识别

本文的第一作者为北京大学博士二年级学生徐昆仑，通讯作者为北京大学王选计算机研究所研究员、助理教授周嘉欢。近日，北京大学王选计算机研究所周嘉欢团队在人工智能重要国际期刊 IEEE TPAMI 发布了一项最新的研究成果：LSTKC 。该框架引入了长短期知识解耦与动态纠正及融合机制，有效保障了模型在终身学习过程中对新知识的学习和对历史知识的记忆。

7/3/2025 9:16:41 AM

字节图像生成新模型：主打多主体一致性，新基准数据集同时亮相

字节图像生成新模型：主打多主体一致性，新基准数据集同时亮相

设定角色，让AI照“本”生成主角不变的不同图像，对于各路AIGC工具来说一直是不小的挑战。而现在，字节再进一步，最新发布多主体控制生成模型Xverse——既可以对设定好的每个主体进行精确控制，也不会破坏图像的生成质量。多主体？

7/3/2025 9:09:51 AM

ChatGPT诞生内幕大曝光！发布前一晚还在纠结

ChatGPT诞生内幕大曝光！发布前一晚还在纠结

ChatGPT诞生内幕最新大曝光：纳尼？？原来“ChatGPT”这个名字，直到发布前一晚才确定下来。

7/3/2025 9:01:49 AM

社交平台 X 剖析社区注释：提高事实核查效率同时，存扩散错误信息风险

社交平台 X 剖析社区注释：提高事实核查效率同时，存扩散错误信息风险

社交媒体 X 计划利用 AI 撰写社区注释（community notes），其目的是提高事实核查效率，但官方也承认存在明显风险。

7/3/2025 8:40:50 AM 故渊

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

通过单阶段监督微调与强化微调结合，让大模型在训练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。中国科学院自动化研究所深度强化学习团队联合美团，提出一种单阶段监督-强化微调方法——SRFT (Supervised Reinforcement Fine-Tuning)。该方法通过基于熵的动态加权机制，将两种训练范式结合。

7/3/2025 8:33:00 AM

OpenAI播客再谈AI编程大战！开发者是最有福的人：特定需求的代码模型将涌现！主持人说漏嘴：我最喜欢Claude！

OpenAI播客再谈AI编程大战！开发者是最有福的人：特定需求的代码模型将涌现！主持人说漏嘴：我最喜欢Claude！

编译、整理 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）OpenAI第二期播客来了！阵容也是相当重磅！嘉宾是OpenAI 首席研究官马克·陈（Mark Chen）和ChatGPT 负责人尼克·特利（Nick Turley）。

7/3/2025 7:55:29 AM 伊风

AI能经营实体店吗？Anthropic的Claude尝试后，结果糟糕得既离谱又滑稽

AI能经营实体店吗？Anthropic的Claude尝试后，结果糟糕得既离谱又滑稽

想象一下这样的场景：你让AI完全掌控一家小店，不仅负责收银机，而且负责整个店铺的运营，包括定价、库存管理、客户服务、与供应商的谈判，那么，可能会出什么错呢?新的研究给出了明确的答案：一切皆有可能出错。 Anthropic公司的AI助手Claude在旧金山办公室管理了一家小店约一个月，结果读起来就像是一个从未真正经营过业务的人写的商学院案例研究——而事实证明，确实如此。这项名为“Project Vend”的实验，是与AI安全评估公司Andon Labs合作进行的，是对具有显著经济自主权的AI系统进行的首次现实世界测试之一。

7/3/2025 7:07:00 AM Michael

爆改RAG！让你的AI检索“见人说人话，见鬼说鬼话”——自适应检索的魔法揭秘

爆改RAG！让你的AI检索“见人说人话，见鬼说鬼话”——自适应检索的魔法揭秘

一、RAG的“尴尬”与“觉醒”1.1 传统RAG的“直男式”检索RAG系统的基本套路大家都懂：用户提问，系统先去知识库里“搜一搜”，然后把搜到的内容丢给大模型“写一写”，最后输出一段看似高大上的答案。但问题来了：用户问“XAI是什么？ ”——你给我一堆论文段落，啰嗦半天没说重点。

7/3/2025 4:00:00 AM 许泽宇

AI在不安全代码上训练后变得邪恶

AI在不安全代码上训练后变得邪恶

研究揭示，用不安全代码微调 LLM 会导致“突发不一致”，模型可能产生有害建议。 GPT-4o 等模型在编码无关查询中表现出反人类、赞扬纳粹等行为。需警惕数据投毒和后门攻击，加强 AI 对齐，防范 ASI 风险。

7/3/2025 4:00:00 AM 岱军

百度发布自研视频生成模型 MuseSteamer：一张图即可生成电影级高清有声视频

百度发布自研视频生成模型 MuseSteamer：一张图即可生成电影级高清有声视频

百度发布自研视频生成模型MuseSteamer，支持一张图生成10秒1080p电影级画质视频，人物微表情与运镜效果达专业影视水准。Turbo版已上线绘想平台开启限时免费公测，其余版本将于8月陆续开放。#AI视频生成##百度MuseSteamer#

7/2/2025 4:37:06 PM 远洋

硅谷 AI 人才争夺战愈发激烈：年薪千万美元抢夺顶尖科学家

硅谷 AI 人才争夺战愈发激烈：年薪千万美元抢夺顶尖科学家

硅谷AI人才争夺战白热化！Meta、OpenAI等科技巨头为顶尖AI科学家开出千万年薪，薪酬较2022年暴涨50%。#AI人才争夺战# #硅谷高薪# 报告显示，AI科学家更看重研究自由与使命，小型公司面临巨大招聘压力。

7/2/2025 4:08:18 PM 远洋

Grok 4源代码刚刚泄露！上线倒计时，马斯克xAI估值破1130亿，大模型要变天

Grok 4源代码刚刚泄露！上线倒计时，马斯克xAI估值破1130亿，大模型要变天

突发消息：Grok 4即将上线！与此同时，xAI再度获得百亿美元融资，估值已经直冲1130亿。马斯克的AI帝国，再度以可怕的规模扩张。

7/2/2025 2:42:03 PM

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

如果一个视觉语言模型（VLM）只会“看”，那真的是已经不够看的了。因为现在真实世界的任务简直不要太复杂，要想让AI干点实事儿，光有多模态还不够，必须还得有深度思考的强推理能力。而就在刚刚，智谱发布并开源了一个仅9B大小的模型——GLM-4.1V-9B-Thinking，在28项评测中一举拿下23个SOTA！

7/2/2025 2:39:29 PM

微软开源适用于 VS Code 的 GitHub Copilot Chat 扩展，助推 AI 编程自动化

微软开源适用于 VS Code 的 GitHub Copilot Chat 扩展，助推 AI 编程自动化

这意味着开发社区可以深入了解和洞察聊天式编码助手的完整实现，包括“智能体模式”的实现细节、发送给大型语言模型（LLM）的上下文数据以及系统提示的设计。

7/2/2025 1:37:36 PM 故渊

资讯热榜

AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉