理论
DeepSeek-V3.2-Exp:用稀疏注意力机制,开启长文本处理的“加速引擎”
随着人工智能技术的飞速发展,大语言模型在各个领域都展现出了巨大的潜力。 然而,传统的大语言模型在处理长文本时面临着效率低下和计算成本高昂的问题。 为了解决这一难题,DeepSeek-AI推出了实验性版本DeepSeek-V3.2-Exp,该模型通过引入DeepSeek稀疏注意力机制(DSA),在保持与V3.1-Terminus相当性能的同时,显著提升了长文本处理的效率。
10/14/2025 9:00:48 AM
AGI小兵
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型学会“精确探索”,推理成绩飙升
大语言模型在RLVR训练中面临的“熵困境”,有解了! 2024年以来,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型,在数学、代码和科学推理任务上取得了显著突破。 这些进展很大程度上得益于一种名为RLVR (基于可验证奖励的强化学习)的方法。
10/14/2025 8:58:00 AM
OpenAI奥特曼:能被ChatGPT消灭的工作不是真正的工作
你今天的工作,或许并不是真正的工作这句耸人听闻的言论出自奥特曼与Rowan Cheung最新的采访。 在这场长达30分钟的对谈里,除了自己对AI与工作的思考,奥特曼还分享了GPT-6的进展、ChatGPT是否会成为美国版微信、AGI的设想变化、AI未来的交互模式,以及自己被恶搞成Sora热梗的感受。 可以说,这次对话涵盖了从娱乐八卦到前沿科技的多重视角,既有趣味,也直指未来趋势。
10/14/2025 8:55:00 AM
人类遗忘的难题解法,被GPT-5重新找出来了
人类遗忘的难题解法,被GPT-5 Pro重新找出来了! 这事儿聚焦于埃尔德什问题#339,这是著名数学家保罗・埃尔德什提出或转述的近千道问题之一,收录于erdosproblems.com网站。 该网站记录了每道题目的当前状态,其中约三分之一已解决,大部分仍待解。
10/14/2025 8:54:00 AM
前端危!Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”
谷歌下一代旗舰模型Gemini 3未发布便已悄然走红! 原因很简单:强,实在是太强了。 在国外社交媒体平台𝕏上,一大波网友激动地分享了Gemini 3的内测结果——从曝光的这些案例来看,Gemini 3尤为擅长前端、SVG矢量图生成,而且多模态能力变得更强。
10/14/2025 8:53:00 AM
OpenAI官宣自研首颗芯片,AI界「M1时刻」九个月杀到!联手博通三年10GW
OpenAI算力的尽头,是自研芯片。 今天,OpenAI重磅官宣与博通合作,打造新一代AI定制加速器,部署规模达10GW。 图片10GW=800多万户美国家庭供电,是胡佛水坝发电量的5倍2026年下半年,正式开始部署,预计到2029年底全部完成。
10/14/2025 8:31:53 AM
新智元
AI的数据饥渴如何重塑企业对存储的需求
AI工作负载正从根本上重塑企业技术基础设施,市场预测凸显了这一变化的显著程度。 麦肯锡指出,AI已成为“数据中心容量需求增长的关键驱动力”,预计到2030年,整体需求将“几乎增长两倍,其中约70%的需求来自AI工作负载”。 事实上,世界经济论坛预计,目前全球数据中心产业价值为2427亿美元,到2032年将增长一倍多,达到约5840亿美元。
10/14/2025 7:00:00 AM
Ken Claffey
2025 AI Agent 元年:你还在用 AI 聊天,别人已靠“智能体”成为“超级个体”
最近,我和朋友聊 AI 时,找到了一个共识:虽然,现在大家生活在同一个世界。 但,却活在不同的时代。 图片现在,很多人还在用传统的方式(你不用或很少用 AI)来解决问题,AI 没有产生什么帮助。
10/14/2025 3:25:00 AM
敖丙
重新定义AI编程协作:深入解析Claude Code多智能体系统架构
引言:站在AI编程的十字路口2025年的软件开发领域正经历着一场静悄悄的革命。 如果你还停留在"AI只能写写简单代码"的认知层面,那么你即将错过这个时代最激动人心的技术突破。 今天,我们要深入探讨的Claude Code Agents系统,不仅仅是一个代码生成工具——它是一个由84个专业智能体、15个工作流编排器和42个开发工具组成的完整生产级多智能体协作系统。
10/14/2025 2:00:00 AM
许泽宇
一文读懂AI应用上下文工程(Context Engineering)
或许你已是一名AI应用提示工程高手,但随着对话的推进,你的聊天机器人常常会忘记你最初且最重要的指令内容,你的代码助手会丢失项目架构的线索,而你的检索增强生成(RAG)工具无法在复杂文档与不同领域间建立信息关联。 随着AI应用场景日益复杂,编写精妙的提示词只是更大挑战中的一小部分——这个挑战就是上下文工程。 在本指南中,我将阐释什么是上下文工程、它如何运作、何时应替代常规提示工程使用它,以及能让AI系统更智能、更具上下文感知能力的实用技巧。
10/14/2025 1:55:00 AM
旺知识
深层网络通过分层抽象能够学习到更复杂的特征表示,从而提升模型对复杂数据的建模能力
神经网络层数越多效果越好这一观点,在特定条件下成立,其核心逻辑在于深层网络通过分层抽象能够学习到更复杂的特征表示,从而提升模型对复杂数据的建模能力。 图片理论机制:分层抽象与特征表示能力增强特征抽象的层次化神经网络通过堆叠层数实现特征的逐层抽象。 以图像识别为例:底层:学习边缘、纹理等简单特征(如卷积核检测水平/垂直边缘);中层:组合底层特征形成形状、部件(如检测车轮、车窗);高层:整合中层特征构成完整对象(如识别整辆汽车)。
10/14/2025 1:11:00 AM
幻风magic
思考不是免费的,大型语言模型推理的收益与代价
对于人工智能智能体,谈判是一场最接近人类智慧的“角斗”,它不仅仅是语言的堆砌,更是策略的博弈、心理的揣摩和利益的权衡。 人类社会和经济活动中,谈判无处不在,从商场里的价格讨价还价,到国际政治的桌面博弈,都是智慧与策略的交锋。 对于AI代理来说,能否在谈判中表现出色,直接决定了它们能否真正走向自主决策的未来。
10/14/2025 1:00:00 AM
波动智能
让AI说"人话":TypeChat.NET如何用强类型驯服大语言模型的"野性"
引言:当AI开始"听懂人话"时发生了什么? 想象一下这样的场景:你走进咖啡厅,对着智能点餐系统说:"来杯大杯拿铁,少糖,加燕麦奶,要热的。 "系统不仅准确理解了你的需求,还把订单转换成了结构化数据——饮品类型、尺寸、温度、配料,一个都没落下。
10/14/2025 12:25:00 AM
许泽宇
大模型赋能文化遗产数字化:古籍修复与知识挖掘的技术实践
在文化遗产数字化领域,大模型的核心应用难点在于如何处理古籍中大量的异体字、残缺文本与模糊语义,尤其是面对明清时期的手写残卷,传统的文字识别技术不仅准确率低下,更无法理解古籍中蕴含的历史语境与专业术语。 我在参与某博物馆古籍数字化项目时,首先遭遇的便是大模型对古籍文字的“识别盲区”—初期使用通用大模型识别一本明代医学残卷,发现其将“癥瘕”误判为“症痕”,把“炮制”错解为“泡制”,更无法关联“君臣佐使”等中医方剂配伍逻辑,导致提取的知识完全偏离原意。 为解决这一困境,我没有直接进行模型微调,而是先搭建“古籍文字与语境知识库”:通过整理《说文解字》《康熙字典》等权威字书,以及近现代古籍整理学术成果,构建包含5000 异体字、通假字的对照词典,每个文字标注字形演变、常见语境与释义差异;同时,针对医学、天文、历法等专业领域古籍,收集对应的行业术语库,标注术语的历史用法与现代对应概念(如“勾陈”对应天文领域的“小熊座”)。
10/13/2025 6:10:28 PM
许辉
谷歌重磅发布Gemini 2.5 Computer Use - AI代理首次实现真正的计算机控制
就在今年早些时候,谷歌曾承诺要通过Gemini API为开发者带来计算机使用能力。 如今,这个承诺终于兑现了。 谷歌DeepMind正式发布了Gemini 2.5 Computer Use模型,这是一个基于Gemini 2.5 Pro视觉理解和推理能力构建的专用模型,能够驱动AI代理与用户界面进行真正的交互。
10/13/2025 3:54:12 PM
阿丸笔记
刚得诺奖的成果被做成芯片了
谁说获得诺贝尔化学奖的MOF(金属有机框架)“无用”? 这种几十年前被嫌弃“只有理论但缺乏实际应用”的新材料,前脚刚获得诺奖认可,后脚就被做成芯片! 这就是莫纳什大学的科学家们刚刚发布的最新成果——用MOF制造超迷你的流体芯片。
10/13/2025 3:53:23 PM
GPT-6或要有生命了!MIT神作:一套神框架让大模型“自己微调自己”,实验已通过!超过GPT4.1,网友:冻结权重时代结束了
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)在过去两年,大语言模型几乎定义了整个 AI 发展的节奏。 但有个问题一直没变:模型再强,也不会自己学习。 每次要让它掌握新知识,都必须人工投喂数据、重新训练。
10/13/2025 2:00:24 PM
云昭
CC是如何构建的?ClaudeCode创始工程师近日自曝:90%代码由Claude自己编写,三天打造“代理代理”,开发者依旧吃香
编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)自从 5 月份正式开放以来,Claude Code 已经在开发者圈掀起了风暴。 据统计,这款工具目前的年度化收入超过 5 亿美元,仅仅在发布后三个月内,使用量就激增了 10 倍以上。 那它到底怎么构建的?
10/13/2025 1:34:11 PM
听雨
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
AI模型
特斯拉
场景
深度学习
亚马逊
架构
Transformer
MCP
Copilot
编程
视觉