AI在线 AI在线

理论

标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源

标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 | 开源

文字中貌似不起眼的标点符号,竟然可以显著加速大模型的训练和推理过程? 来自华为、港大、KAUST和马普所的研究者,就提出了一种新的自然语言建模视角——SepLLM。 起因是团队发现某些看似无意义的分隔符,在注意力得分中占据了不成比例的重要地位。
3/4/2025 9:00:00 AM 量子位
Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

LLM评估基准的「黄金标准」,正在失效? 一大早,AI大神Karpathy发出质疑,「目前存在一种评估危机,我真的不知道现在该看哪些指标了」。 诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准,各有自己的优劣之处。
3/4/2025 8:40:00 AM 新智元
Hinton怒斥马斯克「电锯」屠遍美国科学界!3410位大佬联名将其从英国皇家学会除名

Hinton怒斥马斯克「电锯」屠遍美国科学界!3410位大佬联名将其从英国皇家学会除名

AI教父Hinton和马斯克吵起来了! 今天,Hinton公开叫板,「马斯克应该被英国皇家学会除名,最关键原因是他正在对美国科学机构造成巨大损害」。 这番言论如同一枚重磅炸弹,瞬间点燃了舆论战场。
3/4/2025 8:30:00 AM 新智元
AI优先事项:IT领导者强调生产力而非创新

AI优先事项:IT领导者强调生产力而非创新

随着AI技术的飞速发展,IT领导者对其的投资热情日益高涨,然而,在AI的应用焦点上,IT领导者们却存在不小的争议。 是专注于提高员工生产力,还是探索更高级的应用如推动创新?这一选择将直接影响企业的未来发展。 一项新调查显示,IT领导者在使用AI时仍然瞄准的是低垂的果实,专注于提高员工生产力,而非更高级的应用,如推动创新或增加收入。
3/4/2025 8:10:00 AM Grant Gross
使用Rust构建高性能机器学习模型

使用Rust构建高性能机器学习模型

译者 | 布加迪审校 | 重楼机器学习主要使用Python来完成。 Python之所以大受欢迎,是由于它易于学习,并且有许多机器学习库。 而现在,Rust正成为一种强有力的替代语言。
3/4/2025 8:00:00 AM 布加迪
GCD-DDPM:用扩散模型重塑变化检测,精准捕捉细粒度变化

GCD-DDPM:用扩散模型重塑变化检测,精准捕捉细粒度变化

一眼概览GCD-DDPM 提出了一种 基于差分特征引导的去噪扩散概率模型(DDPM) 进行 变化检测(CD) 的方法,采用 生成式方式 直接生成变化检测(CD)图,而非传统的判别式分类方式。 在四个高分辨率遥感数据集上,该方法展现了优越的检测性能。 核心问题目前主流变化检测(CD)方法大多依赖 CNN 或 Transformer 进行判别式特征学习,但它们在 同时捕获局部细节信息和长距离依赖关系 方面存在局限,导致 变化检测精度不足,尤其是对于 复杂场景的细粒度变化 无法精准捕捉。
3/4/2025 4:00:00 AM 萍哥学AI
告别传统 SSE!fetch-event-source 让 AI 流式处理更高效

告别传统 SSE!fetch-event-source 让 AI 流式处理更高效

在 AI 大模型飞速发展的时代,前端开发者面临着如何高效处理实时数据流的挑战。 服务器发送事件(SSE)作为一种单向通信协议,能够让服务器主动向客户端推送实时更新,广泛应用于实时聊天、新闻推送等场景。 然而,标准的 EventSource API 存在诸多限制,例如只能使用 GET 请求、无法传递请求体等。
3/4/2025 3:00:00 AM PIG AI
23个超强的DeepSeek提示词指令,一看就懂

23个超强的DeepSeek提示词指令,一看就懂

给大家分享几个超强的DeepSeek提示词,大家也可以模仿提示词的结构去书写自己需要的DeepSeek指令。 文中[...]内的只是示例,大家可以根据自己实际需求进行替换。 一、知识管理类请用康奈尔笔记法整理[会议记录/课程内容],左侧提炼关键词,右侧记录案例证据,底部总结行动要点,最后将知识关联绘制成概念网络图。
3/4/2025 2:00:00 AM 丶平凡世界
LLM 大语言模型定义以及关键技术术语认知

LLM 大语言模型定义以及关键技术术语认知

大语言模型定义LLM(Large Language Models)是基于 Transformer 架构(可以理解为不同寻常的大脑)的深度神经网络,通过海量文本数据训练获得语言理解和生成能力。 其核心特征包括:参数规模达数十亿级别(GPT-3 175B参数)知识储备惊人,可以理解为脑细胞数量是普通人的千亿倍(1750亿参数),相当于把整个图书馆的书都装进大脑自回归生成机制(逐词预测)说话方式像接龙,当它写作文时,就像我们玩词语接龙:先写"今天",然后根据"今天"想"天气",接着根据"今天天气"想"晴朗",逐字逐句生成内容。 注意力机制实现长程依赖建模特别会抓重点就像我们读小说时,会自动记住关键人物关系(比如注意到"陈平安喜欢宁姚"),它能自动捕捉文字间的深层联系。
3/4/2025 1:00:00 AM 山河已无恙
DeepSeek提示词超能手册:五大核心技巧,榨干AI生产力!

DeepSeek提示词超能手册:五大核心技巧,榨干AI生产力!

🎯 技巧1:R-T-F黄金三件套——角色 任务 格式锁定AI身份,输出不跑偏! R (Role):角色,明确AI需要扮演的身份或专家领域。 T (Task):任务,清晰定义AI需完成的具体目标。
3/4/2025 12:35:00 AM 新叔
用上DeepSeek,改简历快人一步:AI简历优化保姆级教程

用上DeepSeek,改简历快人一步:AI简历优化保姆级教程

作为科技博主,我测评过上百款AI工具,今天给大家安利一个简历优化的"外挂神器"——DeepSeek。 它能让你的简历从"已读不回"变成"收割offer",操作比美图秀秀还简单,特别适合没经验的应届生和转行小白。 一、为什么需要AI改简历?
3/4/2025 12:00:55 AM 架构师秋天
突破性进展!浙大scNiche框架精准识别细胞生态位,助力精准医疗

突破性进展!浙大scNiche框架精准识别细胞生态位,助力精准医疗

编辑 | 2049随着单细胞空间组学技术的快速发展,科研人员可以在单细胞分辨率水平上系统探索组织中细胞状态、功能和相互作用。 然而,如何从这些海量的空间组学数据中精确识别和表征细胞生态位(cell niche)仍是一个重大挑战。 近日,浙江大学药学院团队开发了一个名为 scNiche 的计算框架,可以从单细胞分辨率的空间组学数据中有效识别和表征细胞生态位。
3/3/2025 4:23:00 PM ScienceAI
马斯克最新预言:AI毁灭世界的概率为20%!星舰全程复用后成本将砍99%!计划30年内完成火星殖民,100万人定居新星!

马斯克最新预言:AI毁灭世界的概率为20%!星舰全程复用后成本将砍99%!计划30年内完成火星殖民,100万人定居新星!

整理 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)3月1日,马斯克再次做客《The Joe Rogan Experience》播客节目,语出惊人! “还有一个更高级的阶段——当AI比所有人类加在一起还要聪明。 坦白说,我觉得这个节点可能会出现在2029或2030年,基本上刚好赶上《终结者》的时间线。
3/3/2025 3:14:18 PM 武晓燕
Agent只是手段,工作流才是内容!

Agent只是手段,工作流才是内容!

编辑|言征现代企业中有一个无名英雄:工作流程。 它有时被称为规则引擎、流程流、单状态机或软件定义的工作流程。 在用户界面(UI)中,它是一个“向导”。
3/3/2025 1:26:39 PM 言征
大模型是一场新的搜索战争,OpenAI不会赢家通吃,一家最好被收购!硅谷知名投资人曝料特朗普希望马斯克更积极裁撤美政府预算

大模型是一场新的搜索战争,OpenAI不会赢家通吃,一家最好被收购!硅谷知名投资人曝料特朗普希望马斯克更积极裁撤美政府预算

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)最近DeepSeek开源周带来了很多惊喜与热议。 但小编发现大家对于马斯克的Grok3的讨论却远远不够充分。 作为“大模型球赛”的最不可捉摸的强大力量,马斯克的xAI最新模型已经上线,便迅速登顶了iPhone的下载排行榜,引起的轰动同样不可小觑。
3/3/2025 12:59:39 PM 言征
中国团队首次夺魁!无问芯穹FlightVGM获FPGA'25最佳论文,峰值算力超GPU21倍

中国团队首次夺魁!无问芯穹FlightVGM获FPGA'25最佳论文,峰值算力超GPU21倍

国际可重构计算领域顶级会议 ——FPGA 2025 在落幕之时传来消息,今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理 IP 工作 FlightVGM,这是 FPGA 会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作,同时也是亚太国家团队首次获此殊荣。 这项工作首次在 FPGA 上实现了视频生成模型(Video Generation Models, VGMs)的高效推理,也是该团队继去年在 FPGA 上加速大语言模型 FlightLLM(FPGA’24)后的最新系列工作。 与 NVIDIA 3090 GPU 相比,FlightVGM 在 AMD V80 FPGA 上实现了 1.30 倍的性能提升与 4.49 倍的能效提升(峰值算力差距超过 21 倍)。
3/3/2025 12:16:48 PM 机器之心
CVPR满分论文:一块2080Ti搞定数据蒸馏,GPU占用仅2G,来自上交大“最年轻博导”课题组

CVPR满分论文:一块2080Ti搞定数据蒸馏,GPU占用仅2G,来自上交大“最年轻博导”课题组

只要一块6年前的2080Ti,就能做大模型数据蒸馏? 来自上交大EPIC实验室等机构的一项最新研究,提出了一种新的数据集蒸馏方法——NFCM。 与前SOTA相比,新方法的显存占用只有1/300,并且速度提升了20倍,相关论文获得了CVPR满分。
3/3/2025 12:13:15 PM 量子位
检索了15460项研究,AI与机械流行病学建模相结合:机遇和挑战的范围界定回顾

检索了15460项研究,AI与机械流行病学建模相结合:机遇和挑战的范围界定回顾

编辑丨toileter将嵌入机械模型中的先前流行病学知识与 AI 的数据挖掘功能相结合,为流行病学建模提供了变革性的潜力。 虽然 AI 与传统机械方法的融合正在迅速发展,但工作仍然分散。 目前,需要更好地纳入现实的决策考虑,扩大对不同数据集的探索,以及进一步研究生物和社会行为机制。
3/3/2025 12:01:00 PM ScienceAI