架构
Hymba:结合注意力头和SSM头的创新型语言模型方案
近年来,大语言模型(LLM)在各个领域取得了显著成效。 但现有的Transformer架构存在计算复杂度高、内存消耗大等问题。 而状态空间模型(SSM)如Mamba虽然具有常数复杂度和优化的硬件性能,但在记忆回溯任务上表现较弱。
12/5/2024 4:19:14 PM
佚名
重磅开源!Kimi把自家底层推理架构都开源了,开源贡献阵容相当豪华:清华、阿里、华为、AISoft、面壁智能
就在昨天,Kimi宣布要把自家底层的大模型推理架构Mooncake开源出来! 有媒体称该架构正是承载了月之暗面Kimi线上80%以上流量的正在用的底层架构。 小编立马求证了一番,的确Github上有提到:Mooncake 正在服务Kimi平台。
11/29/2024 1:54:13 PM
一夜小模型王座易主!英伟达发布超强小模型,新混合架构威力超Transformer,性能、速率、缓存全面超越Llama3.2!
编辑 |言征小模型王座一夜易主了! 冷不防,英伟达就丢出了一个新混合架构,以后不再只是Transformer的天下了。 日前,NVIDIA刚刚发布了Hymba-1.5B-Base,这是一个将Transformer注意力机制与状态空间模型(SSM)集成的小型语言模型。
11/25/2024 8:54:41 AM
言征
Transformer为什么一定要添加一个Positional Encoding模块?
之前老喜欢死记硬背transformer的网络架构,虽然内容并不复杂,但是发现这个transformer模块中的positional encoding在死记硬背的情况之下很容易被忽略。 为了更好地理解为什么transformer一定需要有一个positional encoding,简单推了一下公式先说结论:没有Positional Encoding的transformer架构具有置换等变性。 证明如下:1.
11/20/2024 10:30:00 AM
Sirius
架构赋能 AI:知识工程推动下的软件架构数字化
TL;DR:我们试验了将 AI 应用到基于 Protobuf 的微服务架构中,基于 ArchGuard 治理平台、Shire AI 助手、Team AI 三个工具中,构建了一套完整的 AI4SE 原型,在需求、设计、开发、测试和运维等阶段,这里是我们的思考和实践。 过去几个月里,我们在各大技术大会上频繁看到生成式 AI 的应用,很多研发组织都在尝试将其引入开发的各个环节。 然而,随着 AI 技术的深入应用,不少组织也发现了基础知识工程方面的种种挑战。
11/4/2024 9:05:04 AM
Phodal
英伟达新 nGPT 架构撬动 AI 未来:超球面学习提效,训练模型时间可缩短至 1/20
科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。
10/22/2024 9:46:42 AM
故渊
AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47
科技媒体 marktechpost 昨日(10 月 8 日)发布博文,报道称谷歌公司推出了选择性注意力(Selective Attention)方法,可以提高 Transformer 架构模型的性能。Transformer 架构简介Transformer 是一种革命性的神经网络架构,由谷歌在 2017 年提出,主要用于处理序列数据,特别是在自然语言处理(NLP)领域。Transformer 的核心是自注意力机制,允许模型在处理输入序列时捕捉词与词之间的关系,让模型能够关注输入序列中的所有部分,而不仅仅是局部信息。T
10/9/2024 10:44:18 AM
故渊
30 秒让照片动起来,首个国产纯自研视频大模型 Vidu 上线
感谢首个国产纯自研视频大模型 Vidu 上线,目前向用户开放了文生视频、图生视频两大核心功能,提供 4 秒和 8 秒两种时长选择,分辨率最高为 1080P。用户无需申请,使用邮箱注册即可体验。 AI在线附 Vidu 官网:www.vidu.studioVidu 模型于今年 4 月在 2024 中关村论坛首次亮相,由清华大学与生数科技联合发布,其核心技术 U-ViT 架构由团队在 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 与 Transformer 融合的架构。▲
8/1/2024 4:44:43 PM
沛霖(实习)
华为云 CEO 张平安:中国的 AI 应追求在行业领域构筑大模型的全球领先地位
感谢2024 世界人工智能大会今日在上海世博中心开幕,华为常务董事、华为云 CEO 张平安表示,中国的 AI 发展离不开算力基础设施的创新,并且要敢于开放行业场景,让 AI 在行业应用上领先。张平安提出,中国的 AI 发展道路,追求的应该是在行业领域构筑大模型的全球领先地位。如果各行各业都积极拥抱 AI,积极地开放行业的业务场景,中国很有机会在 2B 领域构筑起全球的领先优势。以钢铁行业为例,目前盘古大模型已经在宝钢的一条热轧生产线上线,预测钢板精度提高 5%,每年有望多生产 2 万吨钢板,增收 9000 多万元。
7/4/2024 4:55:21 PM
沛霖(实习)
小鹏技术标签又添新成员,携手大众通过EEA定义下一代智能汽车
在智能化、网联化技术变革的席卷下,车辆已不再是简单的交通工具,而是变成独立可移动的服务空间。在这一过程中,中国新能源汽车无疑跑在了世界前列,一个最明显的标志就是中国汽车工业曾经的学习对象——大众汽车,已经开始反向学习“取经”。今年4月,小鹏汽车与大众汽车集团签订EEA电子电气架构技术战略合作框架协议,双方将基于小鹏汽车最新一代电子电气架构,联合开发并将其集成到大众汽车在中国的CMP平台上。双方联合开发的电子电气架构预计将从2026年起应用于在中国生产的大众汽车品牌电动车型。这是继“股权投资”合作、“联合采购”合作后
5/7/2024 5:20:00 PM
新闻助手
中国首个 Sora 级模型 Vidu 发布:可生成最长 16 秒、最高 1080P 视频
感谢生数科技今天出席中关村论坛未来人工智能先锋论坛,携手清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型 ——Vidu,被媒体和业内人士认为是国内首个 Sora 级别的视频大模型。 根据官方描述,Vidu 模型融合 Diffusion 与 Transformer,开创性创建了 U-ViT,支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。官方宣传资料中演示了“画室中的一艘船驶向镜头”、其海浪、船的效果非常逼真。官方表示 Vidu 不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生
4/27/2024 1:17:17 PM
故渊
极氪发布浩瀚-M架构并全球首秀极氪MIX,未来电动车架构打造未来的家
今日,2024(第十八届)北京国际汽车展览会(简称:北京车展)盛大开幕,正值成立三周年的极氪智能科技携旗下全系车型亮相北京车展,并正式发布浩瀚-M架构。同时,基于该架构打造的首款家庭出行产品极氪 MIX迎来全球首秀,重新构建未来出行空间新体验。极氪发布浩瀚-M架构 极氪MIX全球首秀在极氪展台的发布会上,极氪智能科技副总裁杨大成回顾了浩瀚架构的进化历程,作为全球最大带宽的纯电架构,四年前正式发布的SEA浩瀚架构赋予极氪产品“天生好底子”;从极氪首款车型极氪001,到最新发布的极氪009光辉,极氪的每一款车型都在各自
4/25/2024 5:28:00 PM
新闻助手
「清华系」视频生成公司生数科技宣布完成新一轮数亿元融资
近日,北京生数科技有限公司(以下简称“生数科技”)宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。本轮由华兴资本担任独家财务顾问。生数科技成立于2023年3月,是全球领先的多模态大模型公司,致力于图像、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。此前公司已完成近亿元融资,过往股
3/12/2024 4:57:00 PM
机器之心
岩芯数智推出非Attention机制大模型,支持离线端侧部署
1月24日,上海岩芯数智人工智能科技有限公司对外推出了一个非Attention机制的通用自然语言大模型——Yan模型。岩芯数智发布会上称,Yan模型使用了全新自研的“Yan架构”代替Transformer架构,相较于Transformer,Yan架构的记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。岩芯数智CEO刘凡平认为,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大
1/25/2024 9:27:00 PM
机器之心
存算一体大算力芯片赋能智能驾驶,后摩智能发布鸿途™H30
5月10日,后摩智能正式发布首款存算一体智驾芯片——鸿途™H30,最高物理算力 256TOPS,典型功耗 35W,成为国内率先落地存算一体大算力 AI 芯片的公司。 在人工智能技术飞速发展的今天,高效的 AI 计算能力成为智能驾驶普及应用的重要基石。后摩智能以底层技术创新为驱动力,采用存算一体架构突破芯片算力和功耗的瓶颈,实现了芯片能效比的阶跃,为快速发展的智能汽车产业带来了全新的解决方案。本次产品发布会汇聚了来自政府、产业界、学术界、投资界多位嘉宾,包括江苏省工业和信息化厅副厅长池宇,中国电动汽车百人会副理事长兼
5/10/2023 7:14:00 PM
新闻助手
此芯科技加入Linaro Windows on Arm工作组,推动Arm全球生态建设
近日,通用智能芯片公司此芯科技宣布加入致力于Arm生态系统软件开发的全球协作工程组织Linaro,成为国内首家加入Windows on Arm工作组的成员。Windows on Arm 工作组旨在为 Windows 建立一个健康的、可持续的 Arm 生态系统。该工作组可为开发人员提供各类工具、编程语言及专业框架支持,助力程序编译速度的提升及Windows on Arm本地开发的实现。此芯科技专注推动Arm架构设备的智能计算发展。加入Windows on Arm 工作组后,此芯科技将负责Arm原生开发、原生应用支持及
7/27/2022 3:14:00 PM
新闻助手
6年技术迭代,阿里全球化出海&合规的挑战和探索
全球化技术根植于全球化业务,经过五个阶段的演进,逐渐发展成为阿里巴巴集团内相对独立的技术体系。本文会首先重点讲解全球化基础设施层的挑战和技术实践。
7/1/2022 2:32:00 PM
新闻助手
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
AI模型