Jürgen Schmidhuber
LSTM之父率队造出PoPE:终结RoPE泛化难题,实现Transformer的极坐标进化
Transformer 架构中的注意力机制是根据内容(what)和序列中的位置(where)将键(key)与查询(query)进行匹配。 而在近期 LSTM 之父 Jürgen Schmidhuber 的 USI & SUPSI 瑞士 AI 实验室团队的一项新研究中,分析表明,当前流行的旋转位置嵌入(RoPE)方法中的 what 与 where 是纠缠在一起的。 这种纠缠会损害模型性能,特别是当决策需要对这两个因素进行独立匹配时。
图灵奖遗忘的AI之父,GAI时代再发声:Jurgen重谈AI“创业”史
最近人工智能领域战火纷飞,各种观点打架。 脾气火爆的人工智能之父Jürgen Schmidhuber也不断吐槽自己“被遗忘”了,不满之余还不忘四处宣讲自己全新的人工智能发展理念,誓要夺回大众视线。 不久前,他就接受了Machine Learning Street(MLST)的一次独家专访,回忆了自己在深度学习和人工智能方面的开创性工作,分享他对智能机器未来的展望,还重点回顾了世界模型带来的人工智能创新和LSTM和Transformer的开发及演变。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉