AI在线 AI在线

神经网络

神经网络可能不再需要激活函数?Layer Normalization也具有非线性表达!

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文作者均来自北京航空航天大学人工智能学院和复杂关键软件环境全国重点实验室黄雷副教授团队。一作倪云昊为研一学生,二作郭宇芯为大三学生,三作贾俊龙为研二学生,通讯作者为黄雷副教授(主页:)神
7/2/2024 3:24:00 PM
机器之心

新加坡国立大学赖载兴教授专访:用混沌边缘改善神经网络,与上帝掷骰子 | IJAIRR

2021年,诺贝尓奖委员会决定将物理奖颁发给复杂系统研究领域、以乔治·帕里西(George Parisi)为首三位科学家。 当时不仅物理学界,许多计算神经科学家或理论机器学习学者表达了对帕里西的祝贺和感激,认为他的理论成果极大地推动了神经网络理论研究这一跨学科领域的蓬勃发展。 在新加坡国立大学,Choy Heng Lai(赖载兴)教授便是这一波复杂系统与神经网络跨学科研究风潮的代表人物之一。
7/2/2024 9:33:00 AM
岑大师

ICML 2024 | 特征污染:神经网络会学习不相关特征而泛化失败

论文标题:Feature Contamination: Neural Networks Learn Uncorrelated Features and Fail to Generalize论文链接::,深度神经网络 SGD scaling的机器学习范式再次证明了其在AI领域的主导地位。为什么基于深度神经网络的范式能够取得成功?比较普遍的观点是:神经网络具有从海量的高维输入数据中自动学习抽象而可泛化的特征的能力。遗憾的是,受限于当前分析手段和数学工具的不足,目前我们对于“(深度)神经网络如何实现这样的特征学习过程”这
6/24/2024 10:44:00 AM
新闻助手

大模型「幻觉」全无?图神经网络成破解核心,精准预测因果消除「幻觉」

【新智元导读】Alembic 首次推出用于企业数据分析和决策支持的无「幻觉」人工智能。原来大模型的「幻觉」,真的可以完全消除!近日,AI 初创公司 Alembic 首次宣布,一种全新 AI 系统完全解决了 LLM 虚假信息生成问题。也就是说,饱受诟病的 LLM 幻觉,被彻底攻破了。联创兼首席执行官 Tomás Puig 在接受 Venture Beat 独家采访时透露,「取得这一关键突破在于,AI 能够在海量企业数据集中,识别随时间变化的因果关系,而不仅仅是相关性」。他接着表示,我们基本上让生成式 AI 免于产生幻
6/17/2024 2:33:44 PM
清源

自动化所研发脉冲动态计算的毫瓦级超低功耗异步感算一体类脑芯片

人脑能够运行非常复杂且庞大的神经网络,总功耗却仅为20瓦,远小于现有的人工智能系统。因此,在算力比拼加速,能耗日益攀升的今日,借鉴人脑的低功耗特性发展新型智能计算系统成为极具潜力的方向。 近日,中国科学院自动化研究所李国齐、徐波课题组与时识科技公司等单位合作设计了一套能够实现动态计算的算法-软件-硬件协同设计的类脑神经形态SOC(System on Chip,系统级芯片)Speck,展示了类脑神经形态计算在融合高抽象层次大脑机制时的天然优势,相关研究在线发表于《自然·通讯》(Nature Communication
6/4/2024 3:46:00 PM
新闻助手

光芯片能否代替电子芯片?破解 AI 「算力荒」

编辑 | ScienceAI摩尔定律的描述已经非常快了——计算机芯片每两年左右就会安装两倍数量的晶体管,从而在速度和效率上产生重大飞跃。但深度学习时代的计算需求增长速度更快——这种速度可能不可持续。论文链接:,2026 年人工智能消耗的电力将是 2023 年的 10 倍,而当年的数据中心消耗的能源将相当于日本一个国家一年的能源消耗。报告链接:「人工智能所需的[计算能力]每三个月就会翻一番,速度远远快于摩尔定律的预测。」 计算硬件公司 Lightmatter 的创始人兼首席执行官 Nick Harris 表示,「这会
5/21/2024 5:20:00 PM
ScienceAI

研究人员推出 xLSTM 神经网络 AI 架构:并行化处理 Token、有望迎战 Transformer

研究人员 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年共同提出了长短期记忆(Long short-term memory,LSTM)神经网络结构,可用来解决循环神经网络(RNN)长期记忆能力不足的问题。而最近 Sepp Hochreiter 在 arXiv 上发布论文,提出了一种名为 xLSTM(Extended LSTM)的新架构,号称可以解决 LSTM 长期以来“只能按照时序处理信息”的“最大痛点”,从而“迎战”目前广受欢迎的 Transformer 架构。IT之家
5/13/2024 8:59:57 AM
漾仔

ICLR 2024 Oral|用巧妙的「传送」技巧,让神经网络的训练更加高效

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本论文作者赵博是加州大学圣地亚哥分校的三年级在读博士,其导师为 Rose Yu。她的主要研究方向为神经网络参数空间中的对称性,及其对优化、泛化和损失函数地貌的影响。她曾获 DeepMind
5/9/2024 6:33:00 PM
机器之心

特斯拉分享第二代 Optimus 机器人工作视频:可将电池精确插入托盘

感谢特斯拉今日再次分享了一段第二代 Optimus 人形机器人的工作视频,视频显示,该机器人可将电池单体精确地插入托盘中。据特斯拉官方介绍,他们训练并部署了一个神经网络,允许 Optimus 开始执行有用的任务,例如从传送带上捡起电池单体并精确地将它们插入托盘中。这个神经网络完全端到端运行,意味着它只使用来自机器人的 2D 摄像头以及板载的本体感知传感器的视频,并直接产生关节控制序列。 特斯拉还称,已经在其中一家工厂部署了几个机器人,它们正在实际的工作站上每天进行测试并不断改进。此外,新款 Optimus 现在也能
5/5/2024 6:31:06 PM
远洋

消息称苹果挖走大量谷歌顶尖人才,建立神秘人工智能实验室

感谢据《金融时报》报道,苹果公司从谷歌挖走了数十名人工智能专家,并在瑞士苏黎世建立了一个“神秘的欧洲实验室”,以组建一支新的团队,负责研发人工智能模型和产品。根据《金融时报》对 LinkedIn 个人资料的分析,自 2018 年苹果挖来约翰・詹南德里亚(John Giannandrea)担任其首席人工智能执行官以来,该公司已经招募了至少 36 位谷歌人工智能专家。据IT之家了解,苹果的主要人工智能团队位于加州和西雅图,但该公司最近扩大了位于瑞士苏黎世的专注于人工智能工作的办公室。有传言指出,苹果收购当地的人工智能初
4/30/2024 4:44:39 PM
远洋

探索基本粒子集,人工智能筛选弦理论近乎无限的可能性

编辑 | 白菜叶几十年前,弦理论因其美丽的简单性而俘获了许多物理学家的心。该理论称,将一块空间放大得足够远,你将看不到大量的粒子或不稳定的量子场。只会有相同的能量股,振动、合并和分离。到 20 世纪 80 年代末,物理学家发现这些「弦」只能以几种方式跳动,这增加了物理学家追踪从跳舞的弦到我们世界的基本粒子的路径的诱人可能性。弦最深处的「隆隆声」会产生引力子,这是一种假设的粒子,被认为形成了时空的引力结构。其他振动会产生电子、夸克和中微子。弦理论被称为「万物理论」。巴黎索邦大学的弦理论家 Anthony Ashmor
4/24/2024 2:09:00 PM
ScienceAI

172个机构合作,发现奇异粒子,机器学习分析约1.6亿次粒子碰撞数据

ATLAS 事件显示了本研究中神经网络发现的与标准模型预测偏差最大的八个事件之一。(来源:欧洲核子研究中心)编辑 | X粒子物理学家的任务是挖掘大量不断增长的碰撞数据,寻找尚未发现的粒子证据。特别是,他们正在寻找未包含在粒子物理标准模型中的粒子,科学家怀疑我们目前对宇宙构成的理解是不完整的。近日,来自 ATLAS 合作组的 172 个研究机构的科学家,使用一种受大脑启发的机器学习算法——神经网络,来筛选大量粒子碰撞数据,搜索数据中的异常特征或异常现象。研究团队使用一种称为异常检测的机器学习方法来分析大量 ATLAS
4/18/2024 2:05:00 PM
ScienceAI

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

以神经网络为基础的深度学习技术已经在诸多应用领域取得了有效成果。在实践中,网络架构可以显著影响学习效率,一个好的神经网络架构能够融入问题的先验知识,稳定网络训练,提高计算效率。目前,经典的网络架构设计方法包括人工设计、神经网络架构搜索(NAS)[1]、以及基于优化的网络设计方法 [2]。人工设计的网络架构如 ResNet 等;神经网络架构搜索则通过搜索或强化学习的方式在搜索空间中寻找最佳网络结构;基于优化的设计方法中的一种主流范式是算法展开(algorithm unrolling),该方法通常在有显式目标函数的情况
4/16/2024 11:17:00 AM
机器之心

为什么要纯C语言手搓GPT-2,Karpathy回应网友质疑

Karpathy:for fun.几天前,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型(LM)训练变得简单 —— 使用纯 C 语言 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 cPython。例如,训练 GPT-2(CPU、fp32)仅需要单个文件中的大约 1000 行干净代码(clean code),可以立即编
4/11/2024 3:18:00 PM
机器之心

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

作者:赖文昕编辑:郭思、陈彩娴说起扩散模型生成的东西,你会立刻想到什么? 是OpenAI的经典牛油果椅子? 是英伟达Magic3D生成的蓝色箭毒蛙?
3/7/2024 4:21:00 PM
赖文昕

AI4Science的基石:几何图神经网络,最全综述来了!人大高瓴联合腾讯AI lab、清华、斯坦福等发布

编辑 | XS2023 年 11 月,Nature 连续刊登了两篇重大成果:蛋白质生成方法 Chroma 和晶体材料设计方法 GNoME,均使用了图神经网络作为科学数据的表示工具。实际上,图神经网络,特别是几何图神经网络,一直是科学智能(AI for Science)研究的重要工具。这是因为,科学领域中的粒子、分子、蛋白质、晶体等物理系统均可被建模成一种特殊的数据结构——几何图。与一般的拓扑图不同,为了更好描述物理系统,几何图加入了不可或缺的空间信息,需要满足平移、旋转和翻转的物理对称性。鉴于几何图神经网络对于物理
3/7/2024 4:17:00 PM
ScienceAI

GPDRP:基于图 Transformer 和基因通路的药物反应预测多模态框架

编辑 | X在计算个性化医学领域,药物反应预测(DRP)是一个关键问题。但是,现有的研究通常将药物描述为字符串,这种表示与分子的自然描述不符。此外,忽略了基因通路(pathway)特异性组合含义。近日,来自河南科技大学的研究人员提出了基于药物图和基因通路的药物反应预测方法(GPDRP),这是一种新的多模态深度学习模型,用于预测基于药物分子图和基因途径活性的药物反应。在 GPDRP 中,药物由分子图表示,而细胞系则以基因途径活性评分描述。该模型使用具有图 Transformer 和深度神经网络的图神经网络(GNN)分
2/19/2024 1:55:00 PM
ScienceAI

Nat. Commun.|人类水平的准确性,哈佛医学院团队使用机器学习,从空间蛋白质组数据中快速、精确地识别细胞类型

编辑 | 萝卜皮高度多重蛋白质成像正在成为分析细胞和组织内天然环境中蛋白质分布的有效技术。然而,现有的利用高复杂空间蛋白质组学数据的细胞注释方法是资源密集型的,并且需要迭代的专家输入,从而限制了它们对于广泛数据集的可扩展性和实用性。哈佛医学院(Harvard Medical School)团队引入了 MAPS(Machine learning for Analysis of Proteomics in Spatial biology),这是一种机器学习方法,有助于从空间蛋白质组数据中快速、精确地识别细胞类型,并具有
2/18/2024 4:40:00 PM
ScienceAI