深度学习

英伟达完成从游戏芯片商到AI巨头的战略转型

全球半导体巨头英伟达(NVIDIA)近日宣布在波士顿设立量子研究中心，标志着这家以游戏显卡起家的公司已完成向人工智能领导者的战略转型。据公开资料显示，英伟达目前市值已突破万亿美元，成为推动AI技术发展的核心力量。从游戏硬件到AI芯片的跨越英伟达成立于1993年，最初专注于为游戏行业提供图形处理器(GPU)。

6/23/2025 4:00:38 PM

AI在线

刚刚，Gemini 2.5系列模型更新，最新轻量版Flash-Lite竟能实时编写操作系统

刚刚，Gemini 系列模型迎来了一波更新：Gemini 2.5 Pro 稳定版发布且已全面可用，其与 6 月 5 日的预览版相比无变化。 Gemini 2.5 Flash 稳定版发布且已全面可用，其与 5 月 20 日的预览版相比无变化，但价格有更新。新推出了 Gemini 2.5 Flash-Lite 并已开启预览。

6/18/2025 9:56:53 AM

机器之心

C#与AI联姻：零依赖！用Keras.NET训练深度学习模型实录

在C#中实现深度学习通常需要依赖复杂的框架，但通过Keras.NET，我们可以在零外部依赖的情况下训练强大的深度学习模型。下面我将分享一个完整的实战案例，展示如何用C#和Keras.NET训练一个图像分类模型。这个实现具有以下特点：零外部依赖：仅使用Keras.NET和Numpy.NET库，无需安装Python或其他深度学习框架完整的训练流程：包括模型构建、数据加载、训练、评估和保存卷积神经网络：使用现代CNN架构进行图像分类模型检查点：自动保存验证集表现最佳的模型灵活的配置：可调整图像尺寸、批次大小和训练轮数要运行此代码，你需要安装以下NuGet包：Keras.NETNumpy.NETSciSharp.TensorFlow.Redist在实际应用中，你需要替换LoadData方法中的模拟数据加载逻辑，使用真实的图像数据。

6/17/2025 7:28:51 AM

CONAN

深度学习中Batch Size对训练过程如何影响？

之前面试过程中被问到过两个问题：（1）深度学习中batch size的大小对训练过程的影响是什么样的？（2）有些时候不可避免地要用超大batch，比如人脸识别，可能每个batch要有几万甚至几十万张人脸图像，训练过程中超大batch有什么优缺点，如何尽可能地避免超大batch带来的负面影响？面试版回答在不考虑Batch Normalization的情况下（这种情况我们之后会在bn的文章里专门探讨），先给个自己当时回答的答案吧（相对来说学究一点）：(1) 不考虑bn的情况下，batch size的大小决定了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。

6/13/2025 2:55:00 AM

grok

一文讲清楚大模型中六个关键词及原理：LLM、Transformer、Bert、预训练、微调FineTuning、机器学习

什么是大模型，相信每个人都能说上一个一二三点来。比如：OpenAI、ChatGPT、DeepSeek、豆包、Manus等。也知道大模型需要做训练与推理。

6/10/2025 1:00:00 AM

Zack之云原生

OpenAI久违发了篇「正经」论文：线性布局实现高效张量计算

OpenAI 发论文的频率是越来越低了。如果你看到了一份来自 OpenAI 的新 PDF 文件，那多半也是新模型的系统卡或相关增补文件或基准测试，很少有新的研究论文。至于原因嘛，让该公司自家的 ChatGPT 来说吧：「截至目前，OpenAI 在 2025 年在 arXiv 上公开发布的论文数量相对较少，可能反映了其对研究成果公开策略的谨慎态度，可能出于商业保密或安全考虑。

6/5/2025 11:49:59 AM

深度学习原来这么好懂？这篇大白话科普，让你轻松 get 新知识！

嘿，朋友们！你是不是也经常在新闻、科技报道里看到“深度学习”这个词？听起来是不是特别高大上，感觉像是只有顶尖科学家才能搞懂的神秘领域？

5/14/2025 8:25:00 AM

用户007

常用模型蒸馏方法：这 N 个核心，你都知道吗？（上）

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 构建高效、灵活、健壮的模型技术体系。随着深度学习模型规模的爆炸式增长，它们在各种任务上展现出令人惊叹的性能。然而，庞大的参数量和计算需求也带来了新的挑战：如何在资源受限的设备上高效部署这些模型？

5/13/2025 9:48:20 AM

Luga Lee

打破Transformer霸权！液态神经网络统治风电预测！

一眼概览该论文提出一种受生物神经系统启发的Liquid Neural Network（LNN）框架，首次将其应用于风电多时间尺度预测任务，并在多个数据集上显著优于LSTM、GRU等主流方法。核心问题风电预测面临高度不确定性和非线性动态问题，传统深度学习方法如LSTM、GRU虽有成效，但缺乏解释性和泛化能力。该研究致力于解决如何在多时间尺度、不同分辨率和变量数下，准确且透明地预测风电输出的问题。

5/9/2025 8:48:06 AM

萍哥学AI

一文详解深度学习中的标量、向量、矩阵、张量

在深度学习领域，标量、向量、矩阵和张量是不可或缺的基本概念。它们不仅是数学工具，更是理解和构建神经网络的关键。从简单的标量运算到复杂的张量处理，这些概念贯穿于数据表示、模型构建和算法优化的全过程。

4/27/2025 9:59:38 AM

Goldma

AI语音革命新纪元：Sesame模型让聊天AI“活”出表情包式情绪声线

译者 | 朱先忠审校 | 重楼Sesame使用一种名为残差向量量化的深度学习技术对语音进行编码最近，Sesame人工智能公司发布了他们最新的语音转语音（Speech-to-Speech）模型的演示。这是一个非常擅长说话的对话式人工智能代理，它们能够提供相关的答案，并带有表情地说话，而且说实话，它们非常有趣，互动性很强。请注意，有关这方面的系统的技术论文尚未发布，但他们确实发布了一篇简短的博客文章，并提供了有关他们使用的技术和他们所构建的先前算法的大量信息。

4/25/2025 8:19:05 AM

朱先忠

微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同规模全精度开源模型相当

微软以小搏大，发布首个开源2B参数规模“原生1bit”LLM——BitNet b1.58 2B4T，单CPU就能跑，性能与同规模全精度开源模型相当。它采用三进制{-1, 0, 1}存储权重，相较于传统的16位浮点数可大幅降低显存需求。只需0.4GB内存即可运行。

4/21/2025 6:43:31 PM

量子位

瑞士研究人员称AI能够识别出可能存在生命行星的隐藏位置

浩瀚宇宙，繁星亿万，寻找另一颗蓝色星球的梦想，如同大海捞针。但现在，来自瑞士的一支科研团队，为这场史诗级的探索注入了强大的新动能。他们精心打造了一款人工智能模型，如同一位目光锐利的星际侦探，能够穿透星尘，洞察那些可能隐藏着宜居世界的未知角落。

4/21/2025 5:00:37 PM

AI在线

全球人工智能市场预测到 2034 年将达到 3680 亿美元

全球人工智能（AI）市场在2024年的规模预计为6382.3亿美元，到2034年将增长至3680.47亿美元，年均增长率(CAGR)为19.20%。人工智能技术正在快速发展，成为各行业数字化转型的重要组成部分。从自动化日常任务到智能决策，机器学习、深度学习、计算机视觉和自然语言处理等 AI 技术正在广泛应用于医疗、金融、零售、汽车和制造等领域。

4/15/2025 12:02:18 PM

AI在线

MIT 与哈佛联合推出 Lyra：一种高效的生物序列建模新方法

在生物序列建模领域，深度学习技术的进步令人瞩目，但高昂的计算需求和对大数据集的依赖让许多研究者感到困扰。最近，麻省理工学院（MIT）、哈佛大学和卡内基梅隆大学的研究团队推出了一种名为 Lyra 的新型生物序列建模方法。这种方法不仅参数显著减少到仅有传统模型的12万分之一，而且能够在短短两小时内使用两块 GPU 进行训练，极大地提升了模型的效率。

3/28/2025 4:59:00 PM

AI在线

参数仅需12万分之一，训练只需2块GPU，MIT、哈佛推出生物序列建模新方法Lyra

编辑 | 白菜叶卷积神经网络（CNN）和 Transformer 等深度学习架构通过捕捉局部和长距离依赖关系，显著推进了生物序列建模。然而，它们在生物学环境中的应用受到高计算需求和对大数据集的需求的限制。麻省理工学院、哈佛大学和卡内基梅隆大学等机构的研究人员提出了 Lyra，这是一种用于序列建模的次二次架构，它基于上位性的生物学框架，用于理解序列与功能之间的关系。

3/27/2025 12:00:00 PM

ScienceAI

活性提升65倍，山大新AI工具定向进化高活性酶，外部数据集验证成功率达80%

编辑丨&准确预测酶动力学参数对于酶的探索和修饰至关重要，但现有模型面临过拟合导致准确率低或泛化能力差的问题。以山东大学为主导的团队提出了一种基于预训练模型和分子指纹的深度学习模型 CataPro ，并用它来预测转换数（k(cat)）、米歇尔常数（K(m)）和催化效率（k(cat)/K(m))。与以前的基线模型相比，CataPro 在无偏数据集上表现出明显增强的准确性和泛化能力。

3/26/2025 2:10:00 PM

ScienceAI

生信工具评测方法：基于蛋白质对的计算机预测工具评估

编辑 | 白菜叶计算机模拟蛋白质功能注释对于缩小因测序加速而导致的对蛋白质活性理解的差距至关重要。存在多种功能注释方法，而且它们的数量一直在增长，尤其是随着深度学习技术的发展。但是，目前尚不清楚这些工具是否真的具有预测性。

3/21/2025 2:06:00 PM

ScienceAI

资讯热榜

Bilibili开源动漫视频生成模型AniSora V3版，一键生成多种风格动漫视频镜头 Chai Discovery发布Chai- 2 模型：零样本抗体设计突破16-20%命中率 xAI控制台新增Grok4及Grok4Code引用，标志着下一代AI模型即将发布 Chai-2震撼发布：AI驱动零样本抗体设计，药物研发提速百倍 Cursor手机版震撼发布！随时随地编码，开发者迎来新自由 PerMAXity：AI驱动投资分析，自动生成综合财务报告 OpenAI四位华人学者集体被挖，还是Meta重金出手 Qwen-TTS新版发布新增支持生成三种中文方言

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌数据机器人大模型 Midjourney 用户智能开源微软 Meta GPT 学习图像技术 Gemini AI创作马斯克论文代码 Anthropic 英伟达算法 Stable Diffusion 芯片智能体训练开发者生成式腾讯蛋白质苹果 AI新词神经网络 3D 研究生成 Claude 机器学习 LLM 计算 Sora AI设计 AI for Science AI视频 GPU xAI 人形机器人百度华为搜索大语言模型场景 Agent 字节跳动预测深度学习伟达工具大型语言模型 Transformer RAG 视觉神器推荐模态 Copilot 亚马逊具身智能 LLaMA 文本算力驾驶 DeepMind

深度学习

英伟达完成从游戏芯片商到AI巨头的战略转型

刚刚，Gemini 2.5系列模型更新，最新轻量版Flash-Lite竟能实时编写操作系统

C#与AI联姻：零依赖！用Keras.NET训练深度学习模型实录

深度学习中Batch Size对训练过程如何影响？

一文讲清楚大模型中六个关键词及原理：LLM、Transformer、Bert、预训练、微调FineTuning、机器学习

OpenAI久违发了篇「正经」论文：线性布局实现高效张量计算

深度学习原来这么好懂？这篇大白话科普，让你轻松 get 新知识！

常用模型蒸馏方法：这 N 个核心，你都知道吗？（上）

打破Transformer霸权！液态神经网络统治风电预测！

一文详解深度学习中的标量、向量、矩阵、张量

AI语音革命新纪元：Sesame模型让聊天AI“活”出表情包式情绪声线

微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑，性能与同规模全精度开源模型相当

瑞士研究人员称AI能够识别出可能存在生命行星的隐藏位置

​全球人工智能市场预测到 2034 年将达到 3680 亿美元

MIT 与哈佛联合推出 Lyra：一种高效的生物序列建模新方法

参数仅需12万分之一，训练只需2块GPU，MIT、哈佛推出生物序列建模新方法Lyra

活性提升65倍，山大新AI工具定向进化高活性酶，外部数据集验证成功率达80%

生信工具评测方法：基于蛋白质对的计算机预测工具评估

全球人工智能市场预测到 2034 年将达到 3680 亿美元