大模型

刚刚，奥特曼放出ChatGPT「统一智能体」！惊呼真AGI，最卷打工人来了

刚刚，奥特曼放出ChatGPT「统一智能体」！惊呼真AGI，最卷打工人来了

今晚，ChatGPT和Deep Research、Operator「三剑客」首度合体！奥特曼亲自带队，25分钟高能直播重磅发布ChatGPT agent，开启人类和智能体协作全新时代。 ChatGPT agent的核心，是一个统一的智能体系统。

7/18/2025 9:59:35 AM

从聊天记录到数字资产：MIRIX 让记忆可买卖

从聊天记录到数字资产：MIRIX 让记忆可买卖

大家好，我是肆〇柒。当下，LLM 智能体在各种复杂任务中表现得越来越出色。然而，记忆这一关键要素却始终制约着 LLM 智能体的进一步发展。

7/17/2025 10:08:30 AM 肆零柒

揭秘大模型的魔法：从Transformer架构开始，一步步揭开它的神秘面纱

揭秘大模型的魔法：从Transformer架构开始，一步步揭开它的神秘面纱

大家好，我是写代码的中年人，本章我们正式进入Transformer架构的学习。从 ChatGPT 到文生图，从语音助手到AI绘本的自动生成，背后几乎都躲着一个强大的架构，它像一台“魔法机器”，能读懂语言、生成内容、甚至推理判断。但这一切魔法的根基，其实都是数学和工程的艺术结晶。

7/17/2025 9:47:07 AM 写代码的中年人

RAG 中文本分块全攻略，这个项目让效率狂飙

RAG 中文本分块全攻略，这个项目让效率狂飙

在构建 Retrieval-Augmented Generation（RAG）系统时，文本分块作为关键前置环节，其质量直接影响检索精度与生成内容的相关性。今天给大家推荐一个自己近期整理的项目 ——Awesome-Chunker，一站式聚合并复现了当下主流的文本分块技术，从经典方法到前沿算法应有尽有，助你在 RAG 开发中少走弯路！ 1、项目核心价值让分块不再是难题在 RAG 任务的探索之路上，相信不少研究者都和我一样，为寻找一个能系统提升分块质量的项目而苦恼。

7/17/2025 9:35:26 AM Goldma

“我没错！”GPT-4o嘴硬翻车，AI在黑天鹅事件面前集体宕机

“我没错！”GPT-4o嘴硬翻车，AI在黑天鹅事件面前集体宕机

来自哥伦比亚大学、Vector人工智能研究所以及南洋理工大学的一个联合研究团队发现：人工智能模型在处理意外事件时的推理能力存在严重缺陷。即便是如GPT-4o和Gemini 1.5 Pro这样的顶尖视觉语言模型（VLM），其表现也远逊于人类，差距最高可达32%。论文地址：《黑天鹅》的研究指出，当前主流的AI评估方式普遍存在一个根本性问题：大多数基准测试围绕“常规模式”构建，也就是说，它们聚焦于可预测、规律清晰的视觉场景。

7/17/2025 7:19:35 AM 大数据文摘

月之暗面开源 Kimi-K2：万亿参数，超强Agent，全线 SOTA

月之暗面开源 Kimi-K2：万亿参数，超强Agent，全线 SOTA

2023年成立的中国AI初创公司月之暗面，刚刚发布了其最新重量级产品Kimi-K2。这是一款参数规模高达一万亿的开源大模型，以挑战GPT-4.1和Claude Sonnet 4为目标。 Kimi-K2没有配备专门的“推理模块”，却依然在多个关键领域打破性能壁垒，这一策略让人想起早前Deepseek的发布。

7/17/2025 7:12:45 AM 大数据文摘

大模型合辑 | 主权高墙还是开源洪流，技术路线生死竞速，WAIC 2025大模型论坛亮点前瞻

大模型合辑 | 主权高墙还是开源洪流，技术路线生死竞速，WAIC 2025大模型论坛亮点前瞻

WAIC 2025 世界人工智能大会论坛：2025年7月26日-28日上海世博中心展览：2025年7月26日-29日上海世博展览馆2025年，全球大模型产业站在技术主权与开放创新的战略岔口。当千亿参数成为基座门槛，行业共识正从“规模竞赛”转向“价值落地”，一场关于生态主导权的暗涌已然成型：国家主导的主权模型与社区驱动的开源体系孰轻孰重？垂类场景的深度定制能否突破通用智能的垄断？

7/15/2025 3:13:00 PM 新闻助手

AI 为何能查天气、订机票？揭秘大模型背后的“神秘工具箱”

AI 为何能查天气、订机票？揭秘大模型背后的“神秘工具箱”

你有没有想过，为什么 AI 能回答“今天上海天气怎么样？ ”这种实时问题，甚至帮你预订机票？明明它的训练数据截止到去年，怎么会对现在的事情了如指掌？

7/15/2025 9:44:16 AM 红绿灯灯灯灯

首个旅游行业超级智能体上线，AI Agent落地垂直领域再下一城

首个旅游行业超级智能体上线，AI Agent落地垂直领域再下一城

7 月 11 日，马蜂窝的深度个性化的攻略定制产品 “AI 路书” 正式宣布向所有用户开放，同步上线 “AI 代订日本餐厅”、“菜单翻译”、“多语种实时翻译” 等几大实用工具，直击用户出境自由行核心痛点，实现从行程规划到目的地精细化服务的全链路智能化覆盖。 “AI 路书” 在内测时期就曾引起用户广泛关注，该产品突破传统 AI 被动响应模式，首创 “主动提问 - 需求校准 - 精准生成” 全流程。用户提交初步需求后，AI 会以选择题形式引导补充关键细节，例如 “是否需要避开台阶较多的景点？

7/11/2025 10:09:00 PM 新闻助手

一文搞懂 | 大模型为什么出现幻觉？从成因到缓解方案

一文搞懂 | 大模型为什么出现幻觉？从成因到缓解方案

1、前言随着大模型（Large Language Models, 以下简称LLM）迅猛发展的浪潮中，幻觉（Hallucination）问题逐渐成为业界和学术界关注的焦点。所谓模型幻觉，指的是模型在生成内容时产生与事实不符、虚构或误导性的信息。比如，当你询问“世界上最长的河流是哪条？

7/11/2025 9:50:52 AM 火山引擎云安全

多模态大模型的“安全锁”：SAPT 软提示调优技术

多模态大模型的“安全锁”：SAPT 软提示调优技术

引言：多模态大模型的安全困境在人工智能技术飞速发展的当下，多模态大模型（VLM）正以前所未有的速度融入我们的生活，从智能助手到图像识别，从文本生成到跨模态任务处理，它们展现出了令人惊叹的能力。然而，随着 VLM 在实际应用中的广泛部署，一个不容忽视的问题逐渐浮出水面——其安全性漏洞正成为潜在的“ ticking bomb”。近期，一篇题为《The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models》的论文，为我们揭开了 VLM 安全性研究的新篇章。

7/11/2025 1:23:00 AM 果冻布丁兔

揭开大模型的秘密！那些 “思考词” 背后藏着惊人的信息量

揭开大模型的秘密！那些 “思考词” 背后藏着惊人的信息量

近日，来自中国人民大学、上海人工智能实验室、伦敦大学学院和大连理工大学的研究团队揭示了大模型推理过程中的一个重要发现:当模型在思考时，所使用的 “思考词” 实际上反映了其内部信息量的显著提升。这一研究成果通过信息论的方法，为我们更好地理解人工智能的推理机制提供了新的视角。论文地址：，会输出一些看似人类化的语言，比如 “嗯……”、“让我想想……” 或 “因此……”。

7/5/2025 7:46:41 AM AI在线

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

本文第一作者为上海交通大学计算机科学四年级博士生万梓煜，主要研究方向为强化学习、基础模型的复杂推理，通讯作者为上海交通大学人工智能学院温颖副教授和上海人工智能实验室胡舒悦老师。团队其他成员包括来自英属哥伦比亚大学的共同第一作者李云想、Mark Schmidt 教授，伦敦大学学院的宋研、杨林易和汪军教授，上海交通大学的温潇雨，王翰竟和张伟楠教授。引言最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ） PPO，③ 可验证奖励（Verifiable Reward） GRPO（DeepSeek R1）。

7/4/2025 8:53:00 AM

华为多路径推理破解大模型数学瓶颈，准确率超97%｜ICML 2025

华为多路径推理破解大模型数学瓶颈，准确率超97%｜ICML 2025

大模型越来越大，通用能力越来越强，但一遇到数学、科学、逻辑这类复杂问题，还是常“翻车”。为破解这一痛点，华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林（Forest-of-Thought，FoT）。该方法借鉴人类“多角度思考、反复验证”的认知方式，打破传统LLM的线性推理范式，通过构建多棵并行推理树，引入动态自我修正机制与多视角共识决策策略。

7/4/2025 8:53:00 AM

重磅发现！大模型的「aha moment」不是装腔作势，内部信息量暴增数倍！

重磅发现！大模型的「aha moment」不是装腔作势，内部信息量暴增数倍！

刘勇，中国人民大学，长聘副教授，博士生导师，国家级高层次青年人才。长期从事机器学习基础理论研究，共发表论文 100 余篇，其中以第一作者/通讯作者发表顶级期刊和会议论文近 50 篇，涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和顶级会议 ICML、NeurIPS 等。你肯定见过大模型在解题时「装模作样」地输出：「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。

7/4/2025 8:47:00 AM

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

来自北京邮电大学的研究团队通过思维链审计实验，首次定量揭示了这一“越想越错”现象背后的元认知偏差：长链推理中的反思不是纠错机制，而是给幻觉颁发“理性证书”——模型为保持与用户提示语义一致，宁可篡改协议定义也不否定前提。风险缺口：长链CoT放大“误差滚雪球”推理大模型（RLLMs）能把复杂问题拆解成几十步推理，再给出看似缜密的结论。然而，随着推理链条变长，一个令人不安的趋势浮出水面——错误不再是偶发失误，而是沿链条滚雪球式放大。

7/4/2025 8:42:00 AM

大模型时代，通用视觉模型将何去何从？

大模型时代，通用视觉模型将何去何从？

过去几年，通用视觉模型（Vision Generalist Model，简称 VGM）曾是计算机视觉领域的研究热点。它们试图构建统一的架构，能够处理图像、点云、视频等多种视觉模态输入，以及分类、检测、分割等多样的下游任务，向着「视觉模型大一统」的目标迈进。然而，随着大语言模型 LLM 的迅猛发展，研究热点已经悄然发生转移。

7/2/2025 9:17:13 AM

AI实战案例：快速实现快递查询助手！

AI实战案例：快速实现快递查询助手！

昨晚直播，咱们用 RAG（Retrieval-Augmented Generation，检索增强生成）实现了数据库 AI 助手，今天我们准备换一个技术使用 function call 来实现快递 AI 助手。执行效果快递 AI 助手的业务逻辑很清晰，就是我通过 LLM 大语言模型的对话来查询我的快递详情，例如，我问 AI 我有几个“运送中”的快递，他把这些快递查询并展示出来，效果如下图所示：什么是 function call？定义： Function Call（也称为 Tool Call）它允许大模型与一组 API 或工具进行交互，从而增强其功能。

7/2/2025 12:00:00 AM

资讯热榜

AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词）最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉