理论

一文读懂 OpenAI 最新 Operator

一文读懂 OpenAI 最新 Operator

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景最新突破 - 构建高效、灵活的创新的 AI Agent。人工智能（AI）领域正迎来一个崭新的时代，AI 不再仅仅是被动地响应指令，而是能够主动地理解用户意图，并在数字世界中自主执行任务。 OpenAI 近期发布的 Operator 正是这一变革的先锋。

1/24/2025 2:38:51 PM 架构驿站

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

本周，在阿里云通义千问 Qwen 团队提交的一篇论文中，研究人员发现了目前最热门的 MoE（混合专家模型）训练中存在的一个普遍关键问题，并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡，使得 MoE 模型的性能和专家特异性都得到了显著的提升。论文：《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接：模型训练中的关键问题混合专家模型（MoEs）通过路由机制动态并稀疏地激活模型参数，使得能高效地增大模型参数规模。基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题：少数被频繁选择的专家会被优化得更多，进一步使得这些专家被更频繁地选择，最终导致只选择少数专家，造成剩余专家的冗余。

1/24/2025 2:19:21 PM 机器之心

贾佳亚团队联合Adobe提出GenProp，物体追踪移除特效样样在行

贾佳亚团队联合Adobe提出GenProp，物体追踪移除特效样样在行

论文一作刘少腾，Adobe Research实习生，香港中文大学博士生（DV Lab），师从贾佳亚教授。主要研究方向是多模态大模型和生成模型，包含图像视频的生成、理解与编辑。作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。

1/24/2025 2:14:35 PM 机器之心

中国AI太强，Meta工程师吓疯？自曝疯狂熬夜复制DeepSeek，天价高管心虚了

中国AI太强，Meta工程师吓疯？自曝疯狂熬夜复制DeepSeek，天价高管心虚了

今天，Meta员工在匿名社区TeamBlind上的一个帖子，在业内被传疯了。 DeepSeek，真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型，而且与o1不同， R1还是开源模型「Open Source Model」，比OpenAI还Open!更有人曝料，DeepSeek还只是个「副项目」，主业根本不是搞大模型！

1/24/2025 1:20:00 PM 新智元

强如Operator也怕验证码，1450元花得值吗？第一波实测来了

强如Operator也怕验证码，1450元花得值吗？第一波实测来了

要花1450元才能玩到Operator，让本来满满期待的大伙，一下难受住了。而交了钱的各位，开始兴奋的晒出各种测试结果。有网友分享，Operator通过浏览网页在3分钟之内帮打找到了附近牙医诊所，回报了地址和电话。

1/24/2025 1:08:18 PM

实测打脸！世界第一位AI程序员Devin：20项任务只完成了3项！14项任务彻底失败！网友：实际效果跟商业估值没关系！

实测打脸！世界第一位AI程序员Devin：20项任务只完成了3项！14项任务彻底失败！网友：实际效果跟商业估值没关系！

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）10个月过去，世界“首位AI程序员”究竟如何了？近日， Answer.AI 团队中经常试验 AI 开发工具的测试团队秉着“百闻不如一见”的精神，与最受Twitter追捧的编程神器共事了一个月，结果非常惨烈。 “作为 Answer.AI 团队中经常试验 AI 开发工具的一员，Devin 给人的感觉有些不同。

1/24/2025 12:49:55 PM 言征

阿里通义实验室提出AnyStory：开启个性化文本到图像生成的新篇章！

阿里通义实验室提出AnyStory：开启个性化文本到图像生成的新篇章！

在这个数字化时代，生成式AI技术正以前所未有的速度改变着我们的创作方式。近期，阿里通义实验室发表了一篇题为《AnyStory: Towards Unified Single and Multi-Subject Personalization in Text-to-Image Generation》的论文，该论文提出了一种创新的框架，旨在通过统一的路径实现单个及多个主体的个性化文本到图像生成，为故事可视化、艺术创作乃至更多领域带来了革命性的突破。论文中深入探讨了当前文本到图像生成技术面临的挑战，如主体一致性、细节保留以及多主体个性化等方面的不足。

1/24/2025 12:11:21 PM AIGC Studio

百度两大国民级产品联手，实现内容生产与消费的自由

百度两大国民级产品联手，实现内容生产与消费的自由

在AI技术的浪潮下，百度文库与百度网盘作为两大国民级产品，正携手推动内容生产与消费的新变革。在百度AI DAY第一期活动中，百度副总裁、文库事业部与网盘事业部负责人王颖，详细阐述了这两个产品如何通过AI技术，打破内容生产到消费的边界，让每个人都能享受到内容自由带来的便利与乐趣。 AI赋能，打通内容生产和消费全链路.

1/24/2025 12:02:20 PM 鸢玮

2025智能体元年！斯坦福科学家8000字讲清所有要点

2025智能体元年！斯坦福科学家8000字讲清所有要点

许多人认为「智能体」是AI发展的终极目标。智能体在处理复杂任务时，展现出了巨大潜力。从协助搭建网站、管理客户账户，到开展市场调研、自动录入数据，智能体的应用场景日益广泛。

1/24/2025 9:30:00 AM 新智元

会用ChatGPT≠工程师，谷歌资深员工发文，揭秘AI编程不为人知的真相

会用ChatGPT≠工程师，谷歌资深员工发文，揭秘AI编程不为人知的真相

尽管程序员们纷纷反馈用上AI辅助之后，工作效率提升，但我们用到的软件中bug依旧不少。针对这一现象，前谷歌产品经理Peter Szalontay，以及现任的谷歌Chrome的工程团队领导Addy Osmani都给出了自己的分析，并提供了一些如何使用AI辅助编程的建议。 AI编码工具的黑暗真相1月7日，前谷歌产品经理Peter Szalontay发推，并配上了一个令人惊心动魄的标题：「无人谈论的AI编码工具的黑暗真相」。

1/24/2025 9:10:00 AM 新智元

刚刚，OpenAI首个智能体提前曝光！高级编码AI剑指400万年薪L6级工程师

刚刚，OpenAI首个智能体提前曝光！高级编码AI剑指400万年薪L6级工程师

AGI或许就在本周？刚刚外媒爆料称，OpenAI暗藏的首个智能体项目「Operator」即将发布。网友发现Operator已登陆ChatGPT，不过可能Pro用户最先用上这款AI智能体将与ChatGPT深度集成，直接可以接管你的屏幕，自动化完成任务。

1/24/2025 9:00:00 AM 新智元

两分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具

两分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具

2025 被称为 Agent 元年，新年伊始，ByteDance Research 就推出了一款基于强化学习的智能体应用：论文检索智能体。它可以模仿人类研究者调用搜索引擎、看论文、查参考文献。繁琐冗长的论文调研，现在，只需要两分钟。

1/24/2025 8:45:00 AM 机器之心

计算机视觉：使用 YOLOv8 创建交通热力图

计算机视觉：使用 YOLOv8 创建交通热力图

在一个由数据驱动和导向的世界中，解释、可视化并基于这些数据做出决策的能力变得越来越重要。这意味着，应用正确的工具和技术可能决定一个项目的成败。在计算机视觉领域，有许多技术可以解释从视频（录制、流媒体或实时）中获取的数据。

1/24/2025 7:37:19 AM 二旺

舍弃与业务无关的部分，别上来就想颠覆！华为、阿里、腾讯、百度、京东、商汤、快手等众一线大牛AI应用打造心得公开：实际在做两件事！

舍弃与业务无关的部分，别上来就想颠覆！华为、阿里、腾讯、百度、京东、商汤、快手等众一线大牛AI应用打造心得公开：实际在做两件事！

编辑 | 云昭、伊风观点 | 《AIGC实战派》特约嘉宾2024，大模型开始走出“不落地”的樊笼，接受“市场老大哥”的捶打与教育。跟2023年不同的是，云厂商、大模型厂商、算力厂商、大模型六小龙、新一代的AI应用创客，独立开发者，一时间群雄并起，都在为新的增长机会放手一搏，蔚为壮观。一个有意思的现象是，虽然2024年大模型的进化依旧是主旋律，但是尤其进入下半年以来，大家讨论“射程”的话题越来越多。

1/23/2025 5:46:40 PM 云昭

AI赋能蛋白质研究：SaprotHub让蛋白质AI模型训练和调用不再有门槛！

AI赋能蛋白质研究：SaprotHub让蛋白质AI模型训练和调用不再有门槛！

编辑 | ScienceAI近年来，AI 技术在蛋白质研究领域发挥了越来越重要的作用。从 AlphaFold2 在结构预测任务上的脱颖而出，到各类蛋白质语言模型（PLMs）在功能预测方面的重大进展，生物研究者们可以利用各式各样的 AI 模型来辅助他们的研究。然而，随着模型变得越来越复杂，如何训练和调用这些 AI 模型对于缺乏机器学习专业知识的研究者来说是一件非常具有挑战的任务，也因此限制了 AI 技术在实际研究中的应用。

1/23/2025 5:44:00 PM ScienceAI

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

检索增强生成（RAG）虽好，但一直面临着资源消耗大、部署复杂等技术壁垒。近日，香港大学黄超教授团队提出MiniRAG，成功将RAG技术的应用门槛降至1.5B参数规模，实现了算力需求的大幅降低。这一突破性成果不仅为边缘计算设备注入新活力，更开启了基于小模型轻量级RAG的探索。

1/23/2025 5:00:00 PM 量子位

推理模型规划任务成功率从5%到95%，DeepMind遗传算法新研究火了

推理模型规划任务成功率从5%到95%，DeepMind遗传算法新研究火了

瞄准推理时扩展（Inference-time scaling），DeepMind新的进化搜索策略火了！所提出的“Mind Evolution”（思维进化），能够优化大语言模型（LLMs）在规划和推理中的响应。由于提升显著，Reddit/𝕏一时间出现了大量讨论：由于结合了遗传算法，使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右，一下提升90个百分点。

1/23/2025 4:25:23 PM 量子位

FastRAG：半结构化数据的检索增强生成

FastRAG：半结构化数据的检索增强生成

本文介绍了FastRAG，一种针对半结构化数据的新型RAG方法。 FastRAG采用模式学习和脚本学习来提取和结构化数据，而无需将整个数据源提交给LLM。它将文本搜索与知识图谱（KG）查询相结合，以提高在问答任务中检索上下文丰富信息的准确性。

1/23/2025 4:23:30 PM

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉