资讯列表

分类

标签

Transformer 的三大优化技术！！

Transformer 是一种基于自注意力（Self-Attention）机制的深度学习模型，最早由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。与传统的循环神经网络（RNN）和长短期记忆网络（LSTM）不同，Transformer 丢弃了递归计算结构，而是通过自注意力机制并行处理输入序列，从而大大提高了计算效率。 Transformer 广泛用于自然语言处理（NLP）和计算机视觉（CV）领域，如机器翻译、文本生成、文本分类、目标检测等。

2/20/2025 12:28:59 AM

程序员小寒

DeepSeek公务员上岗！公务员铁饭碗不保？

图片2月18日，“AI公务员上岗”冲上热搜第一名，在深圳福田区率先推出基于DeepSeek开发的AI数字员工，首批70名上岗。这一事件标志着智能体技术从实验室走向社会治理的第一线，开启人机协作的新纪元。据介绍，福田这70名新员工可实现:公文格式修正准确率超 95%，审核时间缩短90%错误率控制在 5%以内;“执法文书生成助手”将执法笔录秒级生成执法文书初稿;民生诉求分拨准确率从70%提升至95%;“AI招商助手”企业分析筛选效率提升 30%……“幸福福田”官微显示，广东深圳福田区推出基于DeepSeek开发的AI数智员工，上线福田区政务大模型2.0版，除了有DeepSeek通用能力外，还结合各部门各单位实际业务流程，量身定制个性化智能体，首批满足240个业务场景使用。

2/20/2025 12:00:00 AM

数仓宝贝库

威迈尔 VMR 机器人控制器 MC600 发布，支持 CAN、RS485、RS232 及千兆网口

威迈尔今日正式发布 VMR-MC600 机器人控制器，其面向轮式移动机器人开发，适配各类轮式底盘移动机器人，包括：搬运机器人、无人叉车、清洁机器人、服务机器人、巡检机器人和人形机器人。

2/19/2025 11:13:43 PM

归泷（实习）

昆仑万维旗下 Opera 接入 DeepSeek R1 模型，支持本地个性化部署

Opera 在 2024 年将内置本地大语言模型（LLM）引入 Web 浏览器，提供超 50 种 LLM 的访问权限。Opera Developer 利用 Ollama 框架（由 llama.cpp 实现）支持了 DeepSeek R1 系列模型部署。

2/19/2025 10:13:41 PM

归泷（实习）

联发科推出两款多模态轻量级 AI 模型：主打繁体中文处理能力、基于 Meta Llama 3.2 打造而成

联发科创新基地（MediaTek Research）现已发布两款支持繁体中文的轻量级多模态模型，分别是号称可在手机上运行的 Llama-Breeze2-3B 模型和适用于轻薄笔记本电脑的 Llama-Breeze2-8B 模型。

2/19/2025 8:10:43 PM

漾仔

DeepSeek 清华原版宝典：工作、学习、生活、科研中的难题，轻松搞定

这次给大家分享的 PDF 下载，是原汁原味的原版哦，网上有太多卖课者魔改的内置其广告版本。

2/19/2025 8:03:48 PM

泓澄

腾讯元宝：混元 T1 深度思考模型面向所有用户不限量开放使用

腾讯元宝本月（2 月 13 日）宣布 DeepSeek R1 模型联网、满血上线。其支持对用户的提问进行深度思考、逻辑推理和详细回答，同时也支持联网搜索信息，以提高推理和回答的时新性和权威性。

2/19/2025 7:12:15 PM

问舟

OpenAI：强化学习确实可显著提高LLM性能，DeepSeek R1、Kimi k1.5发现o1的秘密

最近，OpenAI 发了一篇论文，宣称 o3 模型在 2024 IOI 上达到了金牌水平，并且在 CodeForces 上获得了与精英级人类相当的得分。他们是怎么做到的呢？ OpenAI 在论文开篇就用一句话进行了总结：「将强化学习应用于大型语言模型（LLM）可显著提高在复杂编程和推理任务上的性能。

2/19/2025 7:05:00 PM

机器之心

大模型强化学习新发现：删减84%数据反提升效果

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

2/19/2025 6:59:00 PM

机器之心

理想同学 App 接入 DeepSeek R1 满血版

理想汽车官方今日发文宣布，理想汽车旗下人工智能助手理想同学 App 全面接入 DeepSeek R1&V3 671B 满血版，支持与理想自研 MindGPT 大模型的双向切换。

2/19/2025 6:28:25 PM

归泷（实习）

从一个简单的神经网络模型开始

关于神经网络的文章写的也不少了，但一直没弄明白神经网络到底是怎么运作的；而现有的神经网络模型又太复杂，如Transformer，CNN，RNN，以及各种应用场景(NLP，CV，分类任务，回归任务等等)；导致我们无法看到神经网络最本质的东西。所以，今天我们就来从最简单的神经网络开始学起。简单神经网络神经网络的基本原理很简单，那就是模仿由人类大脑神经元构成的神经网络；神经元结构如下图所示：上图是生物学中神经元的基本结构，神经元由树突和轴突以及细胞核组成；而不同神经元之间通过轴突进行连接；当然这些都是中学生物学的基础，就不多说了。

2/19/2025 6:00:00 PM

AI探索时代

中国信通院正式启动AI眼镜专项测试

据证券时报报道，中国信息通信研究院（信通院）正式启动了针对 AI 眼镜的专项测试。这一测试旨在推动 AI 眼镜技术的创新与行业标准化，助力行业的健康发展。图源备注：图片由AI生成，图片授权服务商Midjourney此次专项测试由信通院的泰尔终端实验室与 Sream Lab 联合进行，主要针对 RayBan-Meta Wayfarer 智能眼镜进行评估。

2/19/2025 5:59:00 PM

AI在线

数据：闲鱼全线AI产品已覆盖 1020 万用户

近日，闲鱼平台发布了最新数据显示，其全线 AI 产品 —— 闲鱼 AI 智能体已经覆盖了1020万用户。作为这一产品的核心，AI 智能发布功能每天吸引超过20万人使用，并且经过多轮模型优化后，用户的采纳率高达85%。这一成绩展示了闲鱼在人工智能技术应用方面的巨大潜力。

2/19/2025 5:56:00 PM

AI在线

Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述

本次文章介绍我们发表于由Springer出版的专著《Advancements in Knowledge Distillation: Towards New Horizons of Intelligent Systems 》中的第一章“Categories of Response-Based, Feature-Based, and Relation-Based Knowledge Distillation”。该篇文章的主要内容是整理了面向图像识别的知识蒸馏的相关工作，首先在response-based、feature-based和relation-based三种知识形式来介绍离线知识蒸馏的相关工作，然后整理了在线知识蒸馏和自知识蒸馏的相关工作，在其中也对自监督学习蒸馏和视觉Transformer（ViT）蒸馏也进行了介绍。最后讲解了扩展的蒸馏技术领域，包括多教师知识蒸馏、跨模态知识蒸馏、注意力机制知识蒸馏、无数据知识蒸馏和对抗知识蒸馏。

2/19/2025 5:20:00 PM

机器之心

AI助力iOS开发：CursorAI与即将推出的Swift Assist

随着人工智能技术的不断进步，iOS 开发的生态系统正经历一场前所未有的变革。从最初的 Interface Builder 到如今的 AI 增强开发流程，程序员们在生产力上获得了显著提升，但这种变化也带来了新的挑战和机遇。近年来，AI 辅助开发工具的崛起为 iOS 开发带来了巨大的影响。

2/19/2025 4:10:00 PM

AI在线

「诺奖风向标」2025斯隆奖公布，清华姚班大神霸榜！8位华人计算机科学家入选

2025斯隆研究奖，最新名单刚刚出炉！今年，126位杰出的职业生涯早期科学家，荣获「诺奖风向标」斯隆研究奖。这些学者凭借卓越的成就和巨大的发展潜力，成功跻身美国和加拿大新一代科学领军人物的行列。

2/19/2025 4:01:46 PM

新智元

Kimi新论文再次“撞车”DeepSeek，都谈到了长文注意力机制

Kimi背后的长上下文处理机制曝光了！这项名为MoBA的新型注意力机制，能将处理1M长文本的速度一下子提升6.5倍，而且还是经过Kimi平台实际验证的那种。概括而言，这项耗时一年半的工作主要看点在：把完整上下文划分成块，让每个查询token自动去关注最相关的KV块，这样就能高效处理长序列数据；提出一种新的参数无关的top-k门控机制，它能给每个查询token挑选出最相关的块，保证模型只聚焦在最有用信息的块上；支持在全注意力和稀疏注意力模式之间轻松切换；一言以蔽之，MoBA将MoE（专家混合）应用于注意力机制，通过遵循一种“less structure” 原则，允许模型自主决定关注哪些区域或位置。

2/19/2025 4:01:37 PM

量子位

DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本

DeepSeek新注意力机制论文一出，再次引爆讨论热度。依然是熟悉的画风，熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3，这厢DeepSeek重点关注的依然是压缩计算和推理成本。具体来说，新论文提出了一种可原生训练的稀疏注意力机制，名为NSA（Native Sparse Attention）。

2/19/2025 4:01:37 PM

量子位

资讯热榜

小米开源“Xiaomi MiMo”大模型：为推理而生，以 7B 参数超越 OpenAI o1-mini Unsloth发布Qwen3动态量化2.0版本，优化本地运行体验小米首个推理大模型Xiaomi MiMo开源小米首个推理大模型开源Xiaomi MiMo，70 亿参数 DeepSeek-Prover-V2-671B 模型开源，数学推理领域迎来新突破看不懂新开源的DS-Prover V2版本？解读来了，攻克像人类一样数学证明，达到SoTA水平，不知道如何测？样题来了 Midjourney V7推出全新功能 “Omni-Reference”，让图像生成更灵活 Mac 用户的本地 AI 助手Simular，安全高效再升级！

标签云

人工智能 OpenAI AI AIGC ChatGPT AI绘画 DeepSeek 模型数据机器人谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta 图像 AI创作技术论文 Gemini 马斯克 Stable Diffusion 算法蛋白质芯片代码生成式英伟达腾讯神经网络研究 Anthropic 计算 3D Sora AI for Science AI设计机器学习开发者 GPU AI视频华为场景人形机器人预测百度苹果伟达 Transformer 深度学习 Claude xAI 模态字节跳动大语言模型搜索驾驶具身智能神器推荐文本 LLaMA Copilot 算力训练视觉安全视频生成干货合集应用科技大型语言模型亚马逊智能体 AGI DeepMind