xLSTM

研究人员推出 xLSTM 神经网络 AI 架构：并行化处理 Token、有望迎战 Transformer

研究人员 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年共同提出了长短期记忆（Long short-term memory，LSTM）神经网络结构，可用来解决循环神经网络（RNN）长期记忆能力不足的问题。而最近 Sepp Hochreiter 在 arXiv 上发布论文，提出了一种名为 xLSTM（Extended LSTM）的新架构，号称可以解决 LSTM 长期以来“只能按照时序处理信息”的“最大痛点”，从而“迎战”目前广受欢迎的 Transformer 架构。IT之家

5/13/2024 8:59:57 AM

漾仔

原作者带队，LSTM真杀回来了！

LSTM：这次重生，我要夺回 Transformer 拿走的一切。20 世纪 90 年代，长短时记忆（LSTM）方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来，LSTM 经受住了时间的考验，并为众多深度学习的成功案例做出了贡献。然而，以可并行自注意力为核心 Transformer 横空出世之后，LSTM 自身所存在的局限性使其风光不再。当人们都以为 Transformer 在语言模型领域稳坐江山的时候，LSTM 又杀回来了 —— 这次，是以 xLSTM 的身份。5 月 8 日，LSTM 提出者和奠基者 Se

5/9/2024 6:44:00 PM

机器之心

资讯热榜

量大管饱！我整理了10个好用到爆的即梦4.0进阶玩法甲骨文公司股价飙升 27%，人工智能未来收入大幅增长全球高校 “猎杀” AI作业！学生如何应对 “人类化” 挑战？ AI 数据版权新纪元：Real Simple Licensing 协议引发行业关注 ChatGPT能随便连MCP了！对话就能开发票、帮退款…奥特曼的野心毕露：将OpenAI打造成全能型平台！开发者：太危险了不敢用 OpenAI进军韩国市场，携手三星与SK海力士共建AI未来！为什么 LangChain ReAct 机制值得关注？数十亿人将用上免费AGI！OpenAI奥特曼高调断言：全球经济将迎来极度通缩！效率强如DeepSeek，全球AI也需百吉瓦能源!

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能 Meta 用户微软 GPT 学习技术图像 Gemini 智能体马斯克 AI新词 AI创作 Anthropic 英伟达论文训练代码算法 LLM Stable Diffusion 芯片腾讯苹果蛋白质 Claude 开发者 AI for Science Agent 生成式神经网络机器学习 3D xAI 研究人形机器人生成 AI视频百度计算工具 Sora GPU 大语言模型华为 RAG AI设计字节跳动具身智能搜索大型语言模型场景深度学习 AGI 视频生成预测视觉伟达架构 Transformer 神器推荐 DeepMind 亚马逊特斯拉编程 AI模型