深度学习
多模态大模型技术方向和应用场景
多模态大模型(Multimodal Large Language Models,MLLM)是一种结合了大型语言模型(LLM)和大型视觉模型(LVM)的深度学习模型,它们能够处理和理解多种类型的数据,如文本、图像和音频,从而在跨模态任务中展现出卓越的性能。 核心特点对于多模态输入-文本输出的典型 MLLM,其架构一般包括编码器、连接器以及 LLM。 如要支持更多模态的输出(如图片、音频、视频),一般需要额外接入生成器,如下图所示:MLLM 架构图模态编码器负责将原始的信息(如图片)编码成特征,连接器则进一步将特征处理成LLM 易于理解的形式,即视觉 Token。
11/11/2024 3:11:23 PM
天涯咫尺TGH
PyTorch 深度学习的十个核心概念
深度学习是当前最热门的技术之一,而 PyTorch 是一个非常受欢迎的深度学习框架。 今天,我们将深入探讨 PyTorch 中的 10 个核心概念,帮助你更好地理解和使用这个强大的工具。 张量(Tensor)张量是 PyTorch 中最基本的数据结构,类似于 NumPy 的数组,但可以在 GPU 上运行,从而加速计算。
11/11/2024 8:00:00 AM
小白PythonAI编程
优化计算机视觉和图像处理中的图像格式:OpenCV 中的 PNG、JPG 和 WEBP
在计算机视觉和图像处理应用中,选择正确的图像格式可以影响性能和质量。 无论你是在预处理数据以训练深度学习模型、在实时系统上运行推理,还是处理大型数据集,了解PNG、JPG和WEBP的优势和劣势可以帮助你做出明智的选择。 让我们深入了解每种格式在图像处理方面的独特特性,并提供实际的代码示例,展示如何使用Python中的OpenCV加载和保存这些格式。
11/7/2024 4:03:09 PM
二旺
Keras vs JAX,我该选哪个?
译者 | 布加迪审校 | 重楼近年来,Keras和Tensorflow组合遇到了一种与之竞争的框架:JAX,它在深度学习开发者社区逐渐变得很重要。 那么JAX到底是什么? 它有哪些功能?
11/6/2024 4:07:39 PM
布加迪
一种实现符号钢琴音乐声音和谱表分离的GNN新方法
译者 | 朱先忠审校 | 重楼本文涵盖了我最近在ISMIR 2024上发表的论文《聚类和分离:一种用于乐谱雕刻的声音和谱表预测的GNN方法》的主要内容。 简介以MIDI等格式编码的音乐,即使包含量化音符、拍号或小节信息,通常也缺少可视化的重要元素,例如语音和五线谱信息。 这种限制也适用于音乐生成、转录或编曲系统的输出。
11/5/2024 8:19:11 AM
朱先忠
快多个数量级,清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊
编辑 | KX两年前,清华大学物理系徐勇、段文晖研究组开发出高效精确的第一性原理电子结构深度学习方法 DeePH,可极大加速电子结构计算。近日,该团队开发了一种准确而有效的实空间重构方法(real-space reconstruction),将 DeepH 方法从原先仅支持原子基组推广至适用于平面波基组,使得 DeepH 方法可与所有密度泛函理论(DFT)程序兼容。而且,该重构方法比传统的基于投影的方法快几个数量级。这给深度学习电子结构计算方法带来了更高的精度和更好的泛化能力,并打通了其利用电子结构大数据作深度学习
10/10/2024 12:09:00 PM
ScienceAI
用最直观的动画,讲解LLM如何存储事实,3Blue1Brown的这个视频又火了
本文根据视频整理而来,有听错或理解不当之处欢迎在评论区指出。向大模型输入「Michael Jordan plays the sport of _____(迈克尔・乔丹从事的体育运动是……)」,然后让其预测接下来的文本,那么大模型多半能正确预测接下来是「basketball(篮球)」。这说明在其数以亿计的参数中潜藏了有关这个特定个人的相关知识。用户甚至会感觉这些模型记忆了大量事实。但事实究竟如何呢?近日,3Blue1Brown 的《深度学习》课程第 7 课更新了,其中通过生动详实的动画展示了 LLM 存储事实的方式。
9/2/2024 2:53:00 PM
机器之心
预测蛋白质-DNA结合特异性,南加州大学团队开发几何深度学习新方法
编辑 | 萝卜皮预测蛋白质-DNA 结合特异性是一项具有挑战性但又至关重要的任务,有助于理解基因调控。蛋白质-DNA 复合物通常与选定的 DNA 靶位结合,而蛋白质则以不同程度的结合特异性与广泛的 DNA 序列结合。这些信息无法在单一结构中直接获取。为了获取这些信息,南加州大学(University of Southern California)和华盛顿大学(University of Washington)的研究人员提出了深度结合特异性预测器(DeepPBS),这是一种几何深度学习模型,旨在根据蛋白质-DNA 结
8/19/2024 10:34:00 AM
ScienceAI
百万级原子模拟,从头算精度,北京科学智能研究院提出AI+大尺度电子结构模拟新方法
编辑 | KX在计算材料科学领域,准确高效地模拟材料的电子结构一直是一个非常关键而又极具挑战性的问题。基于密度泛函理论的第一性原理计算方法的高计算需求依然是大尺寸长时间材料模拟所面临的难题。北京科学智能研究院 (AI for Science Institute, Beijing) 提出了一种基于深度学习的高效紧束缚方法,称为 DeePTB,从而高效地表示具有从头算精度的材料电子结构,极大地简化了计算复杂度,并实现百万级大尺寸结构的电子、光电响应性质的计算模拟。当与分子动力学相结合时,DeePTB 可以同时促进原子和
8/15/2024 4:09:00 PM
ScienceAI
八问八答搞懂Transformer内部运作原理
七年前,论文《Attention is all you need》提出了 transformer 架构,颠覆了整个深度学习领域。如今,各家大模型都以 transformer 架构为基础,但 transformer 内部运作原理,仍是一个未解之谜。去年,transformer 论文作者之一 Llion Jones 宣布创立人工智能公司 Sakana AI。近期,Sakana AI 发表了一篇题为《Transformer Layers as Painters》的论文,探究了预训练 transformer 中的信息流,并
8/7/2024 2:23:00 PM
机器之心
Nature子刊,快10倍,基于Transformer的逆向蛋白质序列设计方法
编辑 | 萝卜皮借助深度学习的进步,蛋白质设计和工程正以前所未有的速度发展。然而,目前的模型无法在设计过程中自然地考虑非蛋白质实体。在这里,瑞士洛桑联邦理工学院(EPFL)的研究人员提出了一种完全基于原子坐标和元素名称的几何 transformer 的深度学习方法,该方法可以根据不同分子环境所施加限制的主链支架,预测蛋白质序列。使用该方法,研究人员可以以高成功率生产出高热稳定性、催化活性的酶。这有望提高蛋白质设计流程的多功能性,以实现所需的功能。该研究以「Context-aware geometric deep l
8/5/2024 3:37:00 PM
ScienceAI
生成394,760种蛋白质表征,哈佛团队开发AI模型,全面理解蛋白质上下文
编辑 | 萝卜皮了解蛋白质功能和开发分子疗法,需要破译蛋白质发挥作用的细胞类型,解析蛋白质之间的相互作用。然而,对跨生物背景蛋白质相互作用进行建模对于现有算法来说仍然具有挑战性。在最新的研究中,哈佛医学院的研究人员开发了 PINNACLE,这是一种生成情境感知蛋白质表征的几何深度学习方法。PINNACLE 利用多器官单细胞图谱,在情境化蛋白质相互作用网络上进行学习,从 24 种组织的 156 种细胞类型情境中生成 394,760 种蛋白质表征。该研究以「Contextual AI models for single
7/26/2024 3:12:00 PM
ScienceAI
爆火免费书《深入理解深度学习》终于出中文版了
这可能是当今最全面、最新的深度学习概述之一。爆火的深度学习领域,最近又有了热门学习资料。近日,麻省理工出版社的新书《Understanding Deep Learning》(深入理解深度学习)迎来了中文版。这本书一共分为 21 个章节,涵盖了深度学习领域的许多关键概念,包括基本构建、Transformer 架构、图神经网络 GNN、强化学习 RL、扩散模型等等。对于不论是初学者,还是已有工作经验的开发者来说都有极高的价值。GitHub 链接::,该书的英文电子版下载量已达到 34.4 万。该书的实体版本在去年 12
7/22/2024 2:50:00 PM
机器之心
效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊
编辑 | ScienceAI现代医疗保健系统会产生大量高维临床数据 (HDCD),例如肺功能图、光体积变化描记图法 (PPG)、心电图 (ECG) 记录、CT 扫描和 MRI 成像,这些数据无法用单个二进制或连续数字来概括。了解我们的基因组与 HDCD 之间的联系不仅可以提高我们对疾病的了解,而且对于疾病治疗的发展也至关重要。近日,Google Research 的基因组学团队在利用 HDCD 表征疾病和生物学特征方面取得了进展。研究团队提出了一种无监督深度学习模型,即低维嵌入基因发现的表示学习 (REGLE),用
7/19/2024 4:11:00 PM
ScienceAI
AlphaFold 3 向解码分子行为和生物计算迈出重要一步,Nature 子刊锐评
编辑 | KX如果我们完全了解分子之间是如何相互作用的,那么生物学就没什么可学的了,因为每一种生物现象,包括我们如何感知世界,最终都源于细胞内生物分子的行为和相互作用。最近推出的 AlphaFold 3 可以直接从蛋白质、核酸及其配体的序列中预测生物分子复合物的 3D 结构。这标志着我们在长期探索生物分子如何相互作用方面取得了重大进展。AlphaFold 3 代表了直接从复合物序列预测其三维结构的突破,为生物分子相互作用提供了见解。生物分子(如蛋白质或核酸)的一维 (1D) 序列以类似于一段代码指定程序的方式指定细
7/10/2024 2:55:00 PM
ScienceAI
微软发布首个大气AI基础模型Aurora
编辑 | ScienceAI2023 年 11 月,风暴「夏兰」(Ciarán)袭击欧洲西北部,造成严重破坏。与风暴 Ciarán 相关的低压系统为英格兰创下了新纪录,这是一次极为罕见的气象事件。那场风暴的强度让许多人措手不及,暴露了当前天气预报模型的局限性,并突显出面对气候变化需要更准确的预测。当大家努力应对后果时,一个紧迫的问题出现了:我们如何才能更好地预测和准备应对这种极端天气事件?最近的一项研究表明,即使是最先进的 AI 天气预测模型在捕捉风暴 Ciarán 的快速增强和峰值风速方面也面临的挑战。为了帮助应
6/4/2024 3:30:00 PM
ScienceAI
超衍射极限1.5倍,成像条件低10倍,清华、中国科学院用AI方法提高显微镜分辨率
图示:通过 ZS-DeconvNet 对快速光敏生物过程进行长期 SR 成像。(来源:论文)编辑 | 萝卜皮计算超分辨率方法,包括传统的分析算法和深度学习模型,极大地改进了光学显微镜。其中,有监督深度神经网络表现出了出色的性能,但由于活细胞的高动态性,需要大量的高质量训练数据,而获取这些数据非常费力甚至不切实际。在最新的研究中,清华大学和中国科学院的研究人员开发了零样本反卷积网络(Zero-shot deconvolution networks,ZS-DeconvNet),可立即将显微镜图像的分辨率提高超过衍射极限
5/30/2024 5:12:00 PM
ScienceAI
效果超AlphaFold系列,量子计算方法用于蛋白质结构预测
编辑 | 白菜叶虽然 AlphaFold 等深度学习方法在计算机蛋白质结构预测领域取得了不错的成绩,但该领域的研究仍然是生物医学研究中一个具有挑战性的问题。随着量子计算的快速发展,人们自然会问:量子计算机是否能为解决这一问题提供一些帮助。然而,确定适合量子优势的特定问题实例,以及评估所需的量子资源同样具有挑战性。在这里,克利夫兰诊所(Cleveland Clinic)和 IBM Quantum 的研究人员分享了他们的观点,即如何创建一个框架来系统地选择适合量子优势的蛋白质结构预测问题,并在实用级量子计算机上估计此类
5/30/2024 5:11:00 PM
ScienceAI
资讯热榜
超多案例!让 Lovart 作图更好看更高效的提示词在这里了!
OpenMemory MCP发布!AI记忆本地共享,Claude、Cursor一键同步效率翻倍!
“逆天”研究!Cursor 与 Windsurf 背后的核心算法机制曝光!网友惊呼:Cursor代码总出Bug的原因找到了
免费开放!通义千问Qwen上线「深入研究」Deep Research功能
Unsloth 微调 Qwen3 实战教程来了!
谷歌Android Auto迎来Gemini AI,打造更智能车载体验
Poe:DeepSeek使用率下降50%,快手崛起、OpenAI暴涨
TikTok 推出新 AI 工具 “AI Alive”,轻松将照片变成视频
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
数据
机器人
谷歌
大模型
Midjourney
用户
智能
开源
微软
学习
GPT
Meta
图像
AI创作
技术
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
生成式
蛋白质
英伟达
腾讯
开发者
神经网络
研究
Anthropic
3D
计算
Sora
机器学习
AI设计
AI for Science
GPU
苹果
AI视频
场景
华为
生成
百度
人形机器人
搜索
预测
训练
伟达
Claude
xAI
深度学习
Transformer
大语言模型
字节跳动
模态
智能体
具身智能
Copilot
文本
驾驶
神器推荐
LLaMA
视觉
算力
应用
安全
API
视频生成
干货合集
大型语言模型
Agent
工具