模型

科研写作神器，超越Mathpix的科学公式提取工具已开源

LaTeX 公式的光学字符识别（OCR）是科学文献数字化与智能处理的基础环节，尽管该领域取得了一定进展，现有方法在真实科学文献处理时仍面临诸多挑战：其一，主流方法及公开数据集多聚焦于结构简单、符号单一的公式，难以覆盖多学科、高难度的复杂公式；其二，实际文档中广泛存在的多行公式、长公式、分段公式及页面级复杂排版等情况尚未得到充分关注与处理；其三，大多数方法依赖专用模型，通常需要针对特定任务进行专门设计，难以实现通用性和扩展性。针对上述挑战，DocTron 团队提出了系统性解决方案。首先，针对现有数据集覆盖面有限、结构单一的问题，构建了涵盖多学科、多结构的大规模高难度数据集 CSFormula，包含行级、段落级和页面级的复杂排版。

8/6/2025 9:13:57 AM

Discrete Tokenization：多模态大模型的关键基石，首个系统化综述发布

近年来，大语言模型（LLM）在语言理解、生成和泛化方面取得了突破性进展，并广泛应用于各种文本任务。随着研究的深入，人们开始关注将 LLM 的能力扩展至非文本模态，例如图像、音频、视频、图结构、推荐系统等。这为多模态统一建模带来了机遇，也提出了一个核心挑战：如何将各种模态信号转化为 LLM 可处理的离散表示。

8/6/2025 9:10:10 AM

面向6G环境感知通信！西电开源3Dx3D无线电地图数据集与生成式基准框架

面向6G的新一代通信系统，正在逐步从「连接万物」向「感知环境、理解空间」的智能化范式演进。未来网络架构将不仅局限于地面基站和终端，而是向空天地一体化方向拓展，支持包括低轨卫星、高空无人机、智能车辆、楼宇通信等在内的高密度异构节点协同运行。在这种多尺度、多层级的复杂传播环境中，传统依赖导频（pilot）的信道估计方法将面临开销高、泛化差、适应慢等瓶颈。

8/5/2025 2:59:50 PM

陶哲轩经费被断供，在线发帖自证数学有用

菲尔兹奖得主、UCLA数学教授陶哲轩（Terence Tao）这几天很无助，更多的还有是愤怒。这位数学家中的天才，最近接连遭遇重创——先是他就职的UCLA有3.39亿美元的科研经费被冻结，陶的个人研究以及UCLA应用数学研究所IPAM失去资金支持，后续研究几近无枝可依。紧接着，当陶哲轩在社交媒体上表达对这一举措的不理解后，招来了更猛烈的舆论争议——许多网友开始质疑陶的一些学术成果并不像宣传中所说的那么重要，“因为医学成像领域（以及其他领域，如地震学、天文学和统计学）的研究人员已经在不同时间通过实证发现了非常相似的算法”。

8/5/2025 2:54:39 PM

复刻AlphaGo时刻？谷歌推出LLM评估新范式Game Arena：八大模型参赛，棋王当裁判

刚刚谷歌联合Kaggle推出了一个全新LLM评估平台- Game Arena，这个平台通过让LLM在战略游戏中直接对抗，提供一个客观、动态且可扩展的评估新范式。为庆祝平台上线，将在北美时间8月5日举行首次LLM象棋比赛，八大顶尖AI模型（谷歌，OpenAI，Anthropic，xAI，DeepSeek，月之暗面）参与、世界棋王马格努斯·卡尔森等人解说据谷歌DeepMind CEO Demis Hassabis透露，目前模型的表现都不好另外OpenAI已经确定本周有重大发布，谷歌也表示会整大活，这个新的评估基准可能就是其中之一，这周大家可以期待一下，据说Claude 4.1也会发布，简直神仙打架，各位记得星标我，这样可以第一时间收到最新消息以下是关于Kaggle Game Arena详细信息谷歌DeepMind与全球最大的数据科学社区Kaggle共同宣布，正式推出Kaggle Game Arena——一个开放的、以战略游戏为核心的AI基准测试平台。

8/5/2025 9:20:49 AM

阿里刚刚开源Qwen-Image，免费版GPT-4o吉卜力，中文最好模型

8/5/2025 9:15:15 AM

奥特曼：ChatGPT只是意外，全能AI智能体才是真爱！Karpathy：7年前就想到了

历史往往都是由无数「意外和巧合」所塑造的。 2022年，当研究员Hunter Lightman加入OpenAI时，他的同事们正忙于引爆全球的ChatGPT——这无疑是史上用户增长最快的现象级产品。然而，Lightman却悄悄投身于一个看似不起眼的团队：MathGen。

8/5/2025 9:08:00 AM

监督学习未死，一题训练五小时起飞！华人学者新方法20倍训练效率释放大模型推理能力

大模型推理能力研究中，可验证奖励的强化学习（RL with Verifiable Rewards, 简称 RLVR）技术频频突破，尤其是“一题强化学习”（RL on One Example）在多个任务中表现亮眼，引发了广泛讨论。但与此同时，一个现实难题也随之而来：哪怕只使用一个样本，RL的训练也往往需要上百小时的A100GPU支撑，资源成本极高；而训练过程的高度不稳定，也给复现和实际部署带来了极大障碍；相比之下，传统的监督式微调（SFT）虽然计算负担小，但在低数据量下极易过拟合，效果难以保证。有没有一种方法，不依赖复杂的反馈信号，也不需要成千上万的数据样本，就能有效激发LLM中已蕴藏的推理能力？

8/5/2025 9:05:00 AM

万亿参数狂欢！一文刷爆2025年七大顶流大模型架构

从最初的GPT架构问世以来，已经过去七年了。回顾2019年GPT-2，再看2024-2025年的DeepSeek-V3和Llama 4，你会发现，这些模型的结构依然惊人地相似。当然，位置嵌入已从绝对位置编码演变为旋转位置编码（RoPE），多头注意力（Multi-Head Attention）大多被分组查询注意力（Grouped-Query Attention）取代，更高效的SwiGLU激活函数也逐渐取代了GELU。

8/4/2025 9:20:00 AM

弹尽粮绝！陶哲轩自曝遭资金断供，美顶尖数学圣殿IPAM命悬一线

数学大神正在遭遇「学术寒冬」！菲尔兹奖得主陶哲轩自曝，科研经费全被切断，团队已「断粮」几乎无法开展研究。美政府制裁大棒，如今挥向了加州大学洛杉矶分校（UCLA）。

8/4/2025 9:17:00 AM

阿里、南开大学发布免训练，视频大模型创新压缩方法

视频模型相比单图像输入需要对每一帧图像单独编码，这种序列化处理方式会导致token数量成倍增长，严重影响模型推理速度与扩展性。传统的token压缩方法主要依赖于基于注意力机制的筛选，例如FastV、VisionZip、PLLaVA等方法虽然在图像领域取得了一定进展，但在视频理解中却暴露出语义覆盖不足，时序冗余无法处理等一系列问题。为了解决这些难题，阿里巴巴通义实验室与南开大学计算机科学学院联合发布了创新压缩方法LLaVA-Scissor。

8/4/2025 9:11:07 AM

Sam Altman亲晒GPT-5实测问答，发布进入倒计时

今天凌晨2点，OpenAI联合创始人兼首席执行官Sam Altman晒了一张问答图，左上角使用的是ChatGPT-5，也就是大家期待的GPT-5模型。也就是说，OpenAI基本已经完成了GPT-5的基础开发，进入安全、功能测试阶段将很快发布。但从这张GPT-5的回答来看，似乎和o1、豆包、KIMI、DeepSeek的回答差不多，没有什么特别之处。

8/4/2025 9:08:34 AM

哥大学生全员AI作弊？小哥「创业逆袭」：不用AI等于输在起跑线！

Cluely创始人Roy Lee宣称，哥伦比亚大学几乎每位学生都使用AI工具作弊。对此网友表示，「我上大学时，从未使用过AI。那时候我们用的是脑子！

8/4/2025 9:08:00 AM

GPT-5真身曝光，首测编程惊艳全网！一句话秒生游戏，OpenAI双雄备战AGI

GPT-5的发布前兆，愈发强烈了。今早，一款神秘模型Horizon Alpha突然上线OpenRouter，各种榜单和测试席卷了全网。 Horizon Alpha模型的上下文为256K，响应极速，非常擅长创意写作。

8/1/2025 2:40:45 PM

VLM与扩散模型深度整合，图像理解生成编辑三合一模型登场，权重数据训练流程全开源

VLM和扩散模型被整合到一起了。 ModelScope（魔搭）团队发布Nexus-Gen V2，一个同时支持图像理解、生成和编辑的统一模型，而且模型权重、训练流程和数据集全部开源。这事儿有多重要？

8/1/2025 2:32:01 PM

吴恩达：中国将产生真正强大的AI公司，AGI更像营销而不是技术里程碑

刚刚吴恩达老师发了一篇推文，吴老师表达了对中国人工智能发展高度认可，并且认为虽然目前美国暂时领先，但中国的AI发展具有强大的可以超越美国的路径，吴老师还认为AGI更像是营销而不是技术突破，AGI没有终点线，中国半导体布局和开源人工智能最终将协同发展，再加上激烈的竞争环境，会产生真正强大的AI公司以下是吴老师推文原文转译：如今，中国已经有了一条在人工智能领域超越美国的路径。尽管美国目前仍然领先，但中国在开放模型生态系统方面充满活力，并且在半导体设计和制造领域积极布局，已经展现出强大的发展势头。初创企业的经验告诉我们，势头至关重要：即使现在公司规模较小，只要保持高速增长，几年后就可能变成无法阻挡的力量。

8/1/2025 9:30:00 AM

神经驱动的图像编辑：结合脑机接口与扩散模型的创新方法

传统的图像编辑需要用户具备专业的技术知识和大量的手动操作能力。近年来，虽然生成模型的发展使得基于指令的图像编辑变得更加高效，但这些方法仍然依赖于用户输入大量的文本提示、视觉参考或物理操作，在很大程度上限制了图像编辑的效率和可访问性。为了突破这一瓶颈，研究人员开始探索利用脑机接口（BCI）技术来实现图像编辑。

8/1/2025 9:25:00 AM

阿里通义千问发布 Qwen3-Coder-Flash 模型，AI 智能体编程 / 操控浏览器等领域媲美 GPT-4.1 等领先闭源模型

AI在线 8 月 1 日消息，阿里通义千问 Qwen 昨日（7 月 31 日）发布公告，宣布推出 Qwen3-Coder-Flash（全称 Qwen3-Coder-30B-A3B-Instruct）模型，在保持出色的性能和效率基础上，改进智能体编码、智能体浏览器使用及其他基础编码任务性能。官方介绍称该模型具备卓越的智能体能力，在智能体编程 (Agentic Coding)、浏览器使用 (AgenticBrowser-Use)、工具调用 (Tool Use) 等领域，超越当前顶级开源模型，仅略逊于顶配版 Qwen3-Coder-480B-A35B-Instruct, 及 ClaudeSonnet-4、GPT4.1 等领先闭源模型。 AI在线援引官方概述，该模型是因果语言模型，总参数量为 30.5B，激活参数为 3.3B，共有 48 层，专家数为 128 个，激活专家数为 8 个，上下文长度原生支持 262144 个 tokens，使用 Yarn 可扩展到 100 万个 tokens。

8/1/2025 6:55:19 AM 故渊

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉