理论

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等 | 开源

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等 | 开源

文字中貌似不起眼的标点符号，竟然可以显著加速大模型的训练和推理过程？来自华为、港大、KAUST和马普所的研究者，就提出了一种新的自然语言建模视角——SepLLM。起因是团队发现某些看似无意义的分隔符，在注意力得分中占据了不成比例的重要地位。

3/4/2025 9:00:00 AM 量子位

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

LLM评估基准的「黄金标准」，正在失效？一大早，AI大神Karpathy发出质疑，「目前存在一种评估危机，我真的不知道现在该看哪些指标了」。诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准，各有自己的优劣之处。

3/4/2025 8:40:00 AM 新智元

Hinton怒斥马斯克「电锯」屠遍美国科学界！3410位大佬联名将其从英国皇家学会除名

Hinton怒斥马斯克「电锯」屠遍美国科学界！3410位大佬联名将其从英国皇家学会除名

AI教父Hinton和马斯克吵起来了！今天，Hinton公开叫板，「马斯克应该被英国皇家学会除名，最关键原因是他正在对美国科学机构造成巨大损害」。这番言论如同一枚重磅炸弹，瞬间点燃了舆论战场。

3/4/2025 8:30:00 AM 新智元

AI优先事项：IT领导者强调生产力而非创新

AI优先事项：IT领导者强调生产力而非创新

随着AI技术的飞速发展，IT领导者对其的投资热情日益高涨，然而，在AI的应用焦点上，IT领导者们却存在不小的争议。是专注于提高员工生产力，还是探索更高级的应用如推动创新?这一选择将直接影响企业的未来发展。一项新调查显示，IT领导者在使用AI时仍然瞄准的是低垂的果实，专注于提高员工生产力，而非更高级的应用，如推动创新或增加收入。

3/4/2025 8:10:00 AM Grant Gross

使用Rust构建高性能机器学习模型

使用Rust构建高性能机器学习模型

译者 | 布加迪审校 | 重楼机器学习主要使用Python来完成。 Python之所以大受欢迎，是由于它易于学习，并且有许多机器学习库。而现在，Rust正成为一种强有力的替代语言。

3/4/2025 8:00:00 AM 布加迪

GCD-DDPM：用扩散模型重塑变化检测，精准捕捉细粒度变化

GCD-DDPM：用扩散模型重塑变化检测，精准捕捉细粒度变化

一眼概览GCD-DDPM 提出了一种基于差分特征引导的去噪扩散概率模型（DDPM）进行变化检测（CD）的方法，采用生成式方式直接生成变化检测（CD）图，而非传统的判别式分类方式。在四个高分辨率遥感数据集上，该方法展现了优越的检测性能。核心问题目前主流变化检测（CD）方法大多依赖 CNN 或 Transformer 进行判别式特征学习，但它们在同时捕获局部细节信息和长距离依赖关系方面存在局限，导致变化检测精度不足，尤其是对于复杂场景的细粒度变化无法精准捕捉。

3/4/2025 4:00:00 AM 萍哥学AI

告别传统 SSE！fetch-event-source 让 AI 流式处理更高效

告别传统 SSE！fetch-event-source 让 AI 流式处理更高效

在 AI 大模型飞速发展的时代，前端开发者面临着如何高效处理实时数据流的挑战。服务器发送事件（SSE）作为一种单向通信协议，能够让服务器主动向客户端推送实时更新，广泛应用于实时聊天、新闻推送等场景。然而，标准的 EventSource API 存在诸多限制，例如只能使用 GET 请求、无法传递请求体等。

3/4/2025 3:00:00 AM PIG AI

23个超强的DeepSeek提示词指令，一看就懂

23个超强的DeepSeek提示词指令，一看就懂

给大家分享几个超强的DeepSeek提示词，大家也可以模仿提示词的结构去书写自己需要的DeepSeek指令。文中[...]内的只是示例，大家可以根据自己实际需求进行替换。一、知识管理类请用康奈尔笔记法整理[会议记录/课程内容]，左侧提炼关键词，右侧记录案例证据，底部总结行动要点，最后将知识关联绘制成概念网络图。

3/4/2025 2:00:00 AM 丶平凡世界

LLM 大语言模型定义以及关键技术术语认知

LLM 大语言模型定义以及关键技术术语认知

大语言模型定义LLM（Large Language Models）是基于 Transformer 架构(可以理解为不同寻常的大脑)的深度神经网络，通过海量文本数据训练获得语言理解和生成能力。其核心特征包括：参数规模达数十亿级别（GPT-3 175B参数）知识储备惊人，可以理解为脑细胞数量是普通人的千亿倍（1750亿参数），相当于把整个图书馆的书都装进大脑自回归生成机制（逐词预测）说话方式像接龙,当它写作文时，就像我们玩词语接龙：先写"今天"，然后根据"今天"想"天气"，接着根据"今天天气"想"晴朗"，逐字逐句生成内容。注意力机制实现长程依赖建模特别会抓重点就像我们读小说时，会自动记住关键人物关系（比如注意到"陈平安喜欢宁姚"），它能自动捕捉文字间的深层联系。

3/4/2025 1:00:00 AM 山河已无恙

DeepSeek提示词超能手册：五大核心技巧，榨干AI生产力！

DeepSeek提示词超能手册：五大核心技巧，榨干AI生产力！

🎯 技巧1：R-T-F黄金三件套——角色任务格式锁定AI身份，输出不跑偏！ R (Role)：角色，明确AI需要扮演的身份或专家领域。 T (Task)：任务，清晰定义AI需完成的具体目标。

3/4/2025 12:35:00 AM 新叔

用上DeepSeek，改简历快人一步：AI简历优化保姆级教程

用上DeepSeek，改简历快人一步：AI简历优化保姆级教程

作为科技博主，我测评过上百款AI工具，今天给大家安利一个简历优化的"外挂神器"——DeepSeek。它能让你的简历从"已读不回"变成"收割offer"，操作比美图秀秀还简单，特别适合没经验的应届生和转行小白。一、为什么需要AI改简历？

3/4/2025 12:00:55 AM 架构师秋天

突破性进展！浙大scNiche框架精准识别细胞生态位，助力精准医疗

突破性进展！浙大scNiche框架精准识别细胞生态位，助力精准医疗

编辑 | 2049随着单细胞空间组学技术的快速发展，科研人员可以在单细胞分辨率水平上系统探索组织中细胞状态、功能和相互作用。然而，如何从这些海量的空间组学数据中精确识别和表征细胞生态位（cell niche）仍是一个重大挑战。近日，浙江大学药学院团队开发了一个名为 scNiche 的计算框架，可以从单细胞分辨率的空间组学数据中有效识别和表征细胞生态位。

3/3/2025 4:23:00 PM ScienceAI

马斯克最新预言：AI毁灭世界的概率为20%！星舰全程复用后成本将砍99%！计划30年内完成火星殖民，100万人定居新星！

马斯克最新预言：AI毁灭世界的概率为20%！星舰全程复用后成本将砍99%！计划30年内完成火星殖民，100万人定居新星！

整理 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）3月1日，马斯克再次做客《The Joe Rogan Experience》播客节目，语出惊人！ “还有一个更高级的阶段——当AI比所有人类加在一起还要聪明。坦白说，我觉得这个节点可能会出现在2029或2030年，基本上刚好赶上《终结者》的时间线。

3/3/2025 3:14:18 PM 武晓燕

Agent只是手段，工作流才是内容！

Agent只是手段，工作流才是内容！

编辑｜言征现代企业中有一个无名英雄：工作流程。它有时被称为规则引擎、流程流、单状态机或软件定义的工作流程。在用户界面（UI）中，它是一个“向导”。

3/3/2025 1:26:39 PM 言征

大模型是一场新的搜索战争，OpenAI不会赢家通吃，一家最好被收购！硅谷知名投资人曝料特朗普希望马斯克更积极裁撤美政府预算

大模型是一场新的搜索战争，OpenAI不会赢家通吃，一家最好被收购！硅谷知名投资人曝料特朗普希望马斯克更积极裁撤美政府预算

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）最近DeepSeek开源周带来了很多惊喜与热议。但小编发现大家对于马斯克的Grok3的讨论却远远不够充分。作为“大模型球赛”的最不可捉摸的强大力量，马斯克的xAI最新模型已经上线，便迅速登顶了iPhone的下载排行榜，引起的轰动同样不可小觑。

3/3/2025 12:59:39 PM 言征

中国团队首次夺魁！无问芯穹FlightVGM获FPGA'25最佳论文，峰值算力超GPU21倍

中国团队首次夺魁！无问芯穹FlightVGM获FPGA'25最佳论文，峰值算力超GPU21倍

国际可重构计算领域顶级会议 ——FPGA 2025 在落幕之时传来消息，今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理 IP 工作 FlightVGM，这是 FPGA 会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作，同时也是亚太国家团队首次获此殊荣。这项工作首次在 FPGA 上实现了视频生成模型（Video Generation Models, VGMs）的高效推理，也是该团队继去年在 FPGA 上加速大语言模型 FlightLLM（FPGA’24）后的最新系列工作。与 NVIDIA 3090 GPU 相比，FlightVGM 在 AMD V80 FPGA 上实现了 1.30 倍的性能提升与 4.49 倍的能效提升（峰值算力差距超过 21 倍）。

3/3/2025 12:16:48 PM 机器之心

CVPR满分论文：一块2080Ti搞定数据蒸馏，GPU占用仅2G，来自上交大“最年轻博导”课题组

CVPR满分论文：一块2080Ti搞定数据蒸馏，GPU占用仅2G，来自上交大“最年轻博导”课题组

只要一块6年前的2080Ti，就能做大模型数据蒸馏？来自上交大EPIC实验室等机构的一项最新研究，提出了一种新的数据集蒸馏方法——NFCM。与前SOTA相比，新方法的显存占用只有1/300，并且速度提升了20倍，相关论文获得了CVPR满分。

3/3/2025 12:13:15 PM 量子位

检索了15460项研究，AI与机械流行病学建模相结合：机遇和挑战的范围界定回顾

检索了15460项研究，AI与机械流行病学建模相结合：机遇和挑战的范围界定回顾

编辑丨toileter将嵌入机械模型中的先前流行病学知识与 AI 的数据挖掘功能相结合，为流行病学建模提供了变革性的潜力。虽然 AI 与传统机械方法的融合正在迅速发展，但工作仍然分散。目前，需要更好地纳入现实的决策考虑，扩大对不同数据集的探索，以及进一步研究生物和社会行为机制。

3/3/2025 12:01:00 PM ScienceAI

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉