资讯列表
Transformer 的三大优化技术!!
Transformer 是一种基于自注意力(Self-Attention)机制的深度学习模型,最早由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。 与传统的循环神经网络(RNN)和长短期记忆网络(LSTM)不同,Transformer 丢弃了递归计算结构,而是通过自注意力机制并行处理输入序列,从而大大提高了计算效率。 Transformer 广泛用于自然语言处理(NLP)和计算机视觉(CV)领域,如机器翻译、文本生成、文本分类、目标检测等。
2/20/2025 12:28:59 AM
程序员小寒
DeepSeek公务员上岗!公务员铁饭碗不保?
图片2月18日,“AI公务员上岗”冲上热搜第一名,在深圳福田区率先推出基于DeepSeek开发的AI数字员工,首批70名上岗。 这一事件标志着智能体技术从实验室走向社会治理的第一线,开启人机协作的新纪元。 据介绍,福田这70名新员工可实现:公文格式修正准确率超 95%,审核时间缩短90%错误率控制在 5%以内;“执法文书生成助手”将执法笔录秒级生成执法文书初稿;民生诉求分拨准确率从70%提升至95%;“AI招商助手”企业分析筛选效率提升 30%……“幸福福田”官微显示,广东深圳福田区推出基于DeepSeek开发的AI数智员工,上线福田区政务大模型2.0版,除了有DeepSeek通用能力外,还结合各部门各单位实际业务流程,量身定制个性化智能体,首批满足240个业务场景使用。
2/20/2025 12:00:00 AM
数仓宝贝库
威迈尔 VMR 机器人控制器 MC600 发布,支持 CAN、RS485、RS232 及千兆网口
威迈尔今日正式发布 VMR-MC600 机器人控制器,其面向轮式移动机器人开发,适配各类轮式底盘移动机器人,包括:搬运机器人、无人叉车、清洁机器人、服务机器人、巡检机器人和人形机器人。
2/19/2025 11:13:43 PM
归泷(实习)
昆仑万维旗下 Opera 接入 DeepSeek R1 模型,支持本地个性化部署
Opera 在 2024 年将内置本地大语言模型(LLM)引入 Web 浏览器,提供超 50 种 LLM 的访问权限。Opera Developer 利用 Ollama 框架(由 llama.cpp 实现)支持了 DeepSeek R1 系列模型部署。
2/19/2025 10:13:41 PM
归泷(实习)
联发科推出两款多模态轻量级 AI 模型:主打繁体中文处理能力、基于 Meta Llama 3.2 打造而成
联发科创新基地(MediaTek Research)现已发布两款支持繁体中文的轻量级多模态模型,分别是号称可在手机上运行的 Llama-Breeze2-3B 模型和适用于轻薄笔记本电脑的 Llama-Breeze2-8B 模型。
2/19/2025 8:10:43 PM
漾仔
DeepSeek 清华原版宝典:工作、学习、生活、科研中的难题,轻松搞定
这次给大家分享的 PDF 下载,是原汁原味的原版哦,网上有太多卖课者魔改的内置其广告版本。
2/19/2025 8:03:48 PM
泓澄
腾讯元宝:混元 T1 深度思考模型面向所有用户不限量开放使用
腾讯元宝本月(2 月 13 日)宣布 DeepSeek R1 模型联网、满血上线。其支持对用户的提问进行深度思考、逻辑推理和详细回答,同时也支持联网搜索信息,以提高推理和回答的时新性和权威性。
2/19/2025 7:12:15 PM
问舟
OpenAI:强化学习确实可显著提高LLM性能,DeepSeek R1、Kimi k1.5发现o1的秘密
最近,OpenAI 发了一篇论文,宣称 o3 模型在 2024 IOI 上达到了金牌水平,并且在 CodeForces 上获得了与精英级人类相当的得分。 他们是怎么做到的呢? OpenAI 在论文开篇就用一句话进行了总结:「将强化学习应用于大型语言模型(LLM)可显著提高在复杂编程和推理任务上的性能。
2/19/2025 7:05:00 PM
机器之心
大模型强化学习新发现:删减84%数据反提升效果
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/19/2025 6:59:00 PM
机器之心
理想同学 App 接入 DeepSeek R1 满血版
理想汽车官方今日发文宣布,理想汽车旗下人工智能助手理想同学 App 全面接入 DeepSeek R1&V3 671B 满血版,支持与理想自研 MindGPT 大模型的双向切换。
2/19/2025 6:28:25 PM
归泷(实习)
从一个简单的神经网络模型开始
关于神经网络的文章写的也不少了,但一直没弄明白神经网络到底是怎么运作的;而现有的神经网络模型又太复杂,如Transformer,CNN,RNN,以及各种应用场景(NLP,CV,分类任务,回归任务等等);导致我们无法看到神经网络最本质的东西。 所以,今天我们就来从最简单的神经网络开始学起。 简单神经网络神经网络的基本原理很简单,那就是模仿由人类大脑神经元构成的神经网络;神经元结构如下图所示:上图是生物学中神经元的基本结构,神经元由树突和轴突以及细胞核组成;而不同神经元之间通过轴突进行连接;当然这些都是中学生物学的基础,就不多说了。
2/19/2025 6:00:00 PM
AI探索时代
中国信通院正式启动AI眼镜专项测试
据证券时报报道,中国信息通信研究院(信通院)正式启动了针对 AI 眼镜的专项测试。 这一测试旨在推动 AI 眼镜技术的创新与行业标准化,助力行业的健康发展。 图源备注:图片由AI生成,图片授权服务商Midjourney此次专项测试由信通院的泰尔终端实验室与 Sream Lab 联合进行,主要针对 RayBan-Meta Wayfarer 智能眼镜进行评估。
2/19/2025 5:59:00 PM
AI在线
数据:闲鱼全线AI产品已覆盖 1020 万用户
近日,闲鱼平台发布了最新数据显示,其全线 AI 产品 —— 闲鱼 AI 智能体已经覆盖了1020万用户。 作为这一产品的核心,AI 智能发布功能每天吸引超过20万人使用,并且经过多轮模型优化后,用户的采纳率高达85%。 这一成绩展示了闲鱼在人工智能技术应用方面的巨大潜力。
2/19/2025 5:56:00 PM
AI在线
Springer知识蒸馏专著解读 | 面向图像识别的知识蒸馏综述
本次文章介绍我们发表于由Springer出版的专著《Advancements in Knowledge Distillation: Towards New Horizons of Intelligent Systems 》中的第一章“Categories of Response-Based, Feature-Based, and Relation-Based Knowledge Distillation”。 该篇文章的主要内容是整理了面向图像识别的知识蒸馏的相关工作,首先在response-based、feature-based和relation-based三种知识形式来介绍离线知识蒸馏的相关工作,然后整理了在线知识蒸馏和自知识蒸馏的相关工作,在其中也对自监督学习蒸馏和视觉Transformer(ViT)蒸馏也进行了介绍。 最后讲解了扩展的蒸馏技术领域,包括多教师知识蒸馏、跨模态知识蒸馏、注意力机制知识蒸馏、无数据知识蒸馏和对抗知识蒸馏。
2/19/2025 5:20:00 PM
机器之心
AI助力iOS开发:CursorAI与即将推出的Swift Assist
随着人工智能技术的不断进步,iOS 开发的生态系统正经历一场前所未有的变革。 从最初的 Interface Builder 到如今的 AI 增强开发流程,程序员们在生产力上获得了显著提升,但这种变化也带来了新的挑战和机遇。 近年来,AI 辅助开发工具的崛起为 iOS 开发带来了巨大的影响。
2/19/2025 4:10:00 PM
AI在线
「诺奖风向标」2025斯隆奖公布,清华姚班大神霸榜!8位华人计算机科学家入选
2025斯隆研究奖,最新名单刚刚出炉! 今年,126位杰出的职业生涯早期科学家,荣获「诺奖风向标」斯隆研究奖。 这些学者凭借卓越的成就和巨大的发展潜力,成功跻身美国和加拿大新一代科学领军人物的行列。
2/19/2025 4:01:46 PM
新智元
Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制
Kimi背后的长上下文处理机制曝光了! 这项名为MoBA的新型注意力机制,能将处理1M长文本的速度一下子提升6.5倍,而且还是经过Kimi平台实际验证的那种。 概括而言,这项耗时一年半的工作主要看点在:把完整上下文划分成块,让每个查询token自动去关注最相关的KV块,这样就能高效处理长序列数据;提出一种新的参数无关的top-k门控机制,它能给每个查询token挑选出最相关的块,保证模型只聚焦在最有用信息的块上;支持在全注意力和稀疏注意力模式之间轻松切换;一言以蔽之,MoBA将MoE(专家混合)应用于注意力机制,通过遵循一种“less structure” 原则,允许模型自主决定关注哪些区域或位置。
2/19/2025 4:01:37 PM
量子位
DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
DeepSeek新注意力机制论文一出,再次引爆讨论热度。 依然是熟悉的画风,熟悉的味道——那边马斯克疯狂烧了20万张卡训出Grok 3,这厢DeepSeek重点关注的依然是压缩计算和推理成本。 具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为NSA(Native Sparse Attention)。
2/19/2025 4:01:37 PM
量子位