AI

推理AI致命弱点，大模型变「杠精」！被带偏后死不悔改

推理AI致命弱点，大模型变「杠精」！被带偏后死不悔改

20世纪初，据说存在一匹会算数的马，被称为「聪明的汉斯」，但经过心理学家冯斯特的研究，最终发现这匹马其实是通过观察提问者无意识的肢体语言（如呼吸变化）来停止踩蹄，并非真正理解数学。如今，我们发现，大模型会呈现出推理行为，甚至还存在Aha时刻这样的「顿悟现象」。这会不会是大模型表现的如同「聪明的汉斯」那样，依赖提示词中的表面模式，而非真正具有了推理能力，DeepMind的最新研究揭示了大模型推理能力令人担忧的一面。

7/4/2025 8:49:00 AM

重磅发现！大模型的「aha moment」不是装腔作势，内部信息量暴增数倍！

重磅发现！大模型的「aha moment」不是装腔作势，内部信息量暴增数倍！

刘勇，中国人民大学，长聘副教授，博士生导师，国家级高层次青年人才。长期从事机器学习基础理论研究，共发表论文 100 余篇，其中以第一作者/通讯作者发表顶级期刊和会议论文近 50 篇，涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和顶级会议 ICML、NeurIPS 等。你肯定见过大模型在解题时「装模作样」地输出：「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。

7/4/2025 8:47:00 AM

Gemini负责人爆料！多模态统一token表示，视觉至关重要

Gemini负责人爆料！多模态统一token表示，视觉至关重要

一次性揭秘Gemini多模态技术！就在刚刚，Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。他和OpenAI前员工、现谷歌AI Studio产品负责人（Logan Kilpatrick，右）探讨了诸多众人好奇已久的问题：为啥Gemini一开始就被设计为原生多模态？

7/4/2025 8:43:00 AM

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

来自北京邮电大学的研究团队通过思维链审计实验，首次定量揭示了这一“越想越错”现象背后的元认知偏差：长链推理中的反思不是纠错机制，而是给幻觉颁发“理性证书”——模型为保持与用户提示语义一致，宁可篡改协议定义也不否定前提。风险缺口：长链CoT放大“误差滚雪球”推理大模型（RLLMs）能把复杂问题拆解成几十步推理，再给出看似缜密的结论。然而，随着推理链条变长，一个令人不安的趋势浮出水面——错误不再是偶发失误，而是沿链条滚雪球式放大。

7/4/2025 8:42:00 AM

建立基于AI的知识体系：面向企业需求的LlamaIndex与Apache Tika

建立基于AI的知识体系：面向企业需求的LlamaIndex与Apache Tika

译者 | 可乐审校 | 重楼LlamaIndex是一套开源Python框架，类似于智能数据管理员，能够通过文档为AI提供信息支撑。它专为检索增强生成（RAG）而打造，可帮助AI在回答问题或生成内容前检索文件、数据库或记录条目，找寻正确信息。这样AI生成的答案将更加准确，且显著优于依赖预训练知识储备的常规聊天机器人。

7/4/2025 8:28:50 AM 核子可乐

关于 AI 辅助软件交付成熟度模型的探讨

关于 AI 辅助软件交付成熟度模型的探讨

作者 | 张巍面对瞬息万变的市场和技术环境，越来越多企业开始探索人工智能（AI）在软件交付过程中的应用，以提升效率和创新能力。然而，不同组织在AI赋能软件工程上的实践成熟度各不相同，亟需一套分级模型来指引演进路径。正如自动驾驶领域采用L0到L5的级别定义来描述从人工驾驶到完全自动驾驶的演进过程，软件交付领域也可借鉴类似分级方法。

7/4/2025 8:27:59 AM Thoughtworks洞见

Sam Altman的“温和奇点”已至：我们真的越过了AI的“事件视界”吗？

Sam Altman的“温和奇点”已至：我们真的越过了AI的“事件视界”吗？

近日，OpenAI 的掌舵人 Sam Altman 在其个人博客上发表了一篇题为《The Gentle Singularity》（温和的奇点, ）的重磅文章，再次将人工智能的未来推向了舆论的风口浪尖。 Altman 以其一贯的前瞻性视角，大胆宣称：“我们已越过事件视界；起飞已经开始。人类已接近构建数字超级智能，而且至少到目前为止，它远没有看起来那么怪异。

7/4/2025 8:25:03 AM 白明的赞赏账户

有人眼红我不加班，那是他不知道这五个效率爆表的AI助手！

有人眼红我不加班，那是他不知道这五个效率爆表的AI助手！

如果你也在小团队里，这5个AI助手绝对是神器我们是一个中等规模公司里的小技术团队，这5个AI助手就像凭空多出的队友，帮我们省了一堆麻烦。我从没想过AI助手能这么好用……直到它们真的让我的工作轻松了不少。几年前，我们团队忙得晕头转向。

7/4/2025 8:10:46 AM AI研究生

谷歌 Veo 3 AI 文生视频模型正式向 Pro / Ultra 会员开放，后续将新增“照片生成视频”功能

谷歌 Veo 3 AI 文生视频模型正式向 Pro / Ultra 会员开放，后续将新增“照片生成视频”功能

谷歌Veo 3 AI文生视频模型已向Pro/Ultra会员开放，Pro会员每天限生成3段视频。照片生成视频功能即将上线，但使用门槛仍较高，需订阅Pro会籍（每月20美元）。#AI视频生成# #谷歌Veo3#

7/4/2025 7:57:13 AM 漾仔

实现AI战略短期与长期有效的四大关键要素

实现AI战略短期与长期有效的四大关键要素

分析师们敦促技术领导者要管理好预期，特别是对于GenAI，因为其在短期内往往承诺的多于实际能交付的。 Gartner建议，CIO必须帮助CFO将AI视为一项长期战略投资，而Forrester则警告说，如果对AI投资的即时回报预期未能实现，许多企业将会过早地缩减投入。但并非所有企业都在为此挣扎，通过与四位经验丰富的IT领袖的交流，我们描绘出了一幅更为平衡的图景。

7/4/2025 7:02:00 AM Pat Brans

2025年软件开发者必备的十大AI智能体框架全解析

2025年软件开发者必备的十大AI智能体框架全解析

人工智能智能体（AI Agent）技术正在彻底改变软件开发的范式，从简单的聊天机器人进化到具备多步推理、工具调用和协作解决问题能力的复杂系统。对于希望构建智能应用的开发者而言，选择合适的AI智能体框架成为项目成功的关键。本文将深入解析2025年最值得关注的11大AI智能体框架，从技术特性、适用场景到代码示例进行全方位对比，帮助开发者做出明智选择。

7/4/2025 4:22:00 AM 大模型之路

2025 年 AI 工具全栈开发引擎：从 PDF 到语音仪表板

2025 年 AI 工具全栈开发引擎：从 PDF 到语音仪表板

从 PDFs 到视觉模型，从零样本智能体到语音交互仪表板，我将 2025 年的顶级 AI 工具融合成一个个人全栈开发引擎，彻底改变了我的开发方式。一切的起点：技术栈我曾被各种工具淹没：• OCR 用一个库• 语音处理用另一个• 视觉模型再来一个• 嵌入、RAG、仪表板，每样都有单独的工具于是，我做了每个不堪重负的开发者最终会做的事：统一它们。这就是魔法的开始。

7/4/2025 2:15:00 AM AI研究生

FastAPI开发AI应用一：实现连续多轮对话

FastAPI开发AI应用一：实现连续多轮对话

本文将通过一个完整的实战项目，介绍如何使用 FastAPI 框架开发 AI 聊天应用，重点讲解连续多轮对话的实现原理和核心技术。即使你是编程新手，也能跟着本教程一步步构建出功能完整的 AI 聊天应用。本项目已经开源之 Github，项目地址：，你正在和一个聪明的 AI 助手对话，它不仅能回答你的问题，还能记住你们之前聊过的内容。

7/4/2025 12:00:00 AM wayn

新闻出版业危机：ChatGPT 引荐流量增长难抵 AI 搜索冲击

新闻出版业危机：ChatGPT 引荐流量增长难抵 AI 搜索冲击

Similarweb报告显示，AI驱动的搜索结果导致新闻网站自然流量大幅下滑，2024年5月至2025年5月未转化为点击的搜索比例从56%升至69%。尽管ChatGPT对新闻网站的引荐流量增长25倍，但仍难弥补整体损失。#AI冲击新闻业# #ChatGPT#

7/3/2025 3:59:50 PM 远洋

从播客到带娃，看老黄、纳德拉、奥特曼这些CEO 如何在生活中使用 AI

从播客到带娃，看老黄、纳德拉、奥特曼这些CEO 如何在生活中使用 AI

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）在大多数人还在摸索 AI 能帮自己做什么时，那些全球最忙、最顶尖的大公司 CEO，更是乐在AI中，更为恐怖地是，这些大佬可不是为了炫技，而是纯纯的刚需。他们用 AI 跟播客“对话”、用 AI 总结邮件、甚至在深夜带娃时，也离不开 ChatGPT。本文带你看看，微软、OpenAI、苹果、英伟达、Zillow 这五位 CEO，分别是怎么在日常生活中「高频使用 AI」的。

7/3/2025 3:40:27 PM 云昭

GitHub一周2000星！国产统一图像生成模型神器升级，理解质量双up，还学会了“反思”

GitHub一周2000星！国产统一图像生成模型神器升级，理解质量双up，还学会了“反思”

国产开源统一图像生成模型，技术重大升级！新进展来自智源研究院：一模支持文生图、图像编辑、主题驱动图像生成的OmniGen，2.0新版本正式发布。具体来说，OmniGen2在保持简洁架构的基础上，显著增强了上下文理解能力、指令遵循能力和图像生成质量。

7/3/2025 3:01:26 PM

RL缩放王炸！DeepSWE开源AI Agent登顶榜首，训练方法、权重大公开

RL缩放王炸！DeepSWE开源AI Agent登顶榜首，训练方法、权重大公开

今天凌晨，著名大模型训练平台Together.ai联合Agentica开源了创新AI Agent框架DeepSWE。 DeepSWE是基于阿里最新开源的Qwen3-32B模型之上，完全使用强化学习训练而成。除了权重之外，训练方法、日志、数据集等所有内容也全部开源，以帮助开发人员深度学习和改进Agent。

7/3/2025 2:58:16 PM

DeepSeek-R2！？神秘模型惊现竞技场，真实身份引网友猜测

DeepSeek-R2！？神秘模型惊现竞技场，真实身份引网友猜测

DeepSeek-R2，终于要来了？大模型竞技场秘密上线了一个叫steve的神秘模型，在对话中透露自己来自DeepSeek。不过，网友们并不满足于知道steve的厂商，开始讨论起了steve的具体身份。

7/3/2025 2:57:51 PM

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型 AI新词机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 英伟达马斯克 Anthropic 图像 AI创作训练 LLM 论文代码 AI for Science 苹果算法腾讯 Agent Claude 芯片 Stable Diffusion 具身智能 xAI 蛋白质开发者人形机器人生成式神经网络机器学习 AI视频 3D RAG 大语言模型字节跳动 Sora 百度研究 GPU 生成工具华为 AGI 计算大型语言模型 AI设计生成式AI 搜索视频生成亚马逊 AI模型 DeepMind 特斯拉场景深度学习 Transformer 架构 Copilot MCP 编程视觉