理论

科研写作神器，超越Mathpix的科学公式提取工具已开源

LaTeX 公式的光学字符识别（OCR）是科学文献数字化与智能处理的基础环节，尽管该领域取得了一定进展，现有方法在真实科学文献处理时仍面临诸多挑战：其一，主流方法及公开数据集多聚焦于结构简单、符号单一的公式，难以覆盖多学科、高难度的复杂公式；其二，实际文档中广泛存在的多行公式、长公式、分段公式及页面级复杂排版等情况尚未得到充分关注与处理；其三，大多数方法依赖专用模型，通常需要针对特定任务进行专门设计，难以实现通用性和扩展性。针对上述挑战，DocTron 团队提出了系统性解决方案。首先，针对现有数据集覆盖面有限、结构单一的问题，构建了涵盖多学科、多结构的大规模高难度数据集 CSFormula，包含行级、段落级和页面级的复杂排版。

8/6/2025 9:13:57 AM

Discrete Tokenization：多模态大模型的关键基石，首个系统化综述发布

近年来，大语言模型（LLM）在语言理解、生成和泛化方面取得了突破性进展，并广泛应用于各种文本任务。随着研究的深入，人们开始关注将 LLM 的能力扩展至非文本模态，例如图像、音频、视频、图结构、推荐系统等。这为多模态统一建模带来了机遇，也提出了一个核心挑战：如何将各种模态信号转化为 LLM 可处理的离散表示。

8/6/2025 9:10:10 AM

微软数据研究揭示：AI时代这10类职业最难被取代

随着生成式 AI 技术的飞速发展，全球就业市场正经历深刻的结构性变革。微软最新发布的《生成式 AI 对职业的影响》报告，通过对 2024 年 1 月至 9 月美国用户与 Bing Copilot 的 20 万笔匿名互动数据研究，揭示了 AI 浪潮下职业市场的新格局：白领群体因工作内容与 AI 高度重叠，受冲击程度远超蓝领；而部分依赖实操技能、人际互动或特殊场景处理能力的职业，成为当前最不易被 AI 取代的领域。报告分析显示，用户最常借助AI 完成的任务集中在信息搜索、文本创作、沟通协助三大领域，这些恰恰是生成式 AI .

8/6/2025 8:56:23 AM

Claude Opus 4.1被曝即将发布！Anthropic靠两大客户API收入超OpenAI

GPT-5又咕咕，但是把Claude新模型诈了出来——Claude Opus 4.1，被曝正在进行内部测试。图片文件将这个模型描述为“更具问题解决能力”，推测它可能会重点提高推理和规划能力。有网友补充说，最近使用Claude Code时会被询问使用体验，可能是在进行一些A/B测试。

8/5/2025 3:12:28 PM

13岁小孩哥当上CEO，22岁造独角兽！少年帮扎堆辍学，集结硅谷创业

一群20岁出头的年轻人，在硅谷掀起了一波AI创业风暴。他们抛下名校光环，甚至直接辍学，带着梦想和激情杀入了如今的爆火AI赛道。 NYT一篇深度长文中以独特视角，将那些与AI一起成长的年轻CEO们推到聚光灯下。

8/5/2025 3:08:24 PM

面向6G环境感知通信！西电开源3Dx3D无线电地图数据集与生成式基准框架

面向6G的新一代通信系统，正在逐步从「连接万物」向「感知环境、理解空间」的智能化范式演进。未来网络架构将不仅局限于地面基站和终端，而是向空天地一体化方向拓展，支持包括低轨卫星、高空无人机、智能车辆、楼宇通信等在内的高密度异构节点协同运行。在这种多尺度、多层级的复杂传播环境中，传统依赖导频（pilot）的信道估计方法将面临开销高、泛化差、适应慢等瓶颈。

8/5/2025 2:59:50 PM

市场铁律被 AI 攻破！NBER研究揭示：交易算法竟能完美合谋，自动组建卡特尔

一项由美国国家经济研究局（NBER）发布的研究报告指出，人工智能驱动的交易算法能够在金融市场中独立发展出类似卡特尔的行为。卡特尔行为是一种经济学概念，指的是原本应当相互竞争的企业，通过达成正式或非正式的协议，共同行动以谋求垄断利润。论文地址：，在世界上绝大多数国家，明确的卡特尔协议都是非法的，并受到反垄断法的严厉制裁。

8/5/2025 2:57:02 PM

陶哲轩经费被断供，在线发帖自证数学有用

菲尔兹奖得主、UCLA数学教授陶哲轩（Terence Tao）这几天很无助，更多的还有是愤怒。这位数学家中的天才，最近接连遭遇重创——先是他就职的UCLA有3.39亿美元的科研经费被冻结，陶的个人研究以及UCLA应用数学研究所IPAM失去资金支持，后续研究几近无枝可依。紧接着，当陶哲轩在社交媒体上表达对这一举措的不理解后，招来了更猛烈的舆论争议——许多网友开始质疑陶的一些学术成果并不像宣传中所说的那么重要，“因为医学成像领域（以及其他领域，如地震学、天文学和统计学）的研究人员已经在不同时间通过实证发现了非常相似的算法”。

8/5/2025 2:54:39 PM

点名怒斥！全球互联网架构巨头：Perplexity 的“幽灵爬虫”到处乱窜，后者回怼：乱咬人恶意炒作，不会分析就来请教，专业堪忧

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）最近，全球最大的互联网架构提供商之一 Cloudflare 抛出了一颗“4A级炸弹”，直接炮轰当红 AI 初创公司 Perplexity。在Cloudflare 公开的博客中指出，当 Perplexity 的爬虫遭遇阻断时，该公司将隐藏其爬虫身份，伪装成真实用户来突破封锁规则，继续抓取拒绝采集的网站内容。 Cloudflare 的工程师 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在周一的一篇博客中表示：“虽然 Perplexity 一开始使用其声明的用户代理进行抓取，但当遭遇网络封锁时，它们会隐藏爬虫身份，试图绕过网站的意愿。

8/5/2025 1:12:44 PM 云昭

Python十年开发者倒戈Rust！只因Claude Code擅长静态类型语言？Rust老炮围攻：AI写的Rust代码出奇的差！

编辑 | 伊风AI 会有自己的编程偏好吗？如果问 Claude Code “最伟大的编程语言”是什么，它又会怎么回答呢？今天，Hacker News 上一篇技术博客引发了热烈讨论。

8/5/2025 12:57:02 PM 伊风

奥特曼深夜「放鸽子」！不发GPT-5，竟是给7亿用户「防沉迷」？

昨晚ChatGPT带来了一个好消息和一个坏消息。好消息是，ChatGPT的最新数据出炉！这可能是地球上第一个如此之快达成周活7亿的APP，这意味着地球上每10个人中就有1个人使用ChatGPT。

8/5/2025 10:35:47 AM 新智元

破局酒店搜索零结果！携程AI搜索实战，复杂查询召回率提升90%

在AI快速发展的浪潮中，传统的关键词搜索早已难以满足用户日益复杂的需求。尤其在酒店预订领域，如何精准理解“2大1小”“江浙周边遛娃”这类模糊却真实的意图，成了提升用户体验的关键。本文将带您深入探索语义搜索如何颠覆传统检索方式，从实体识别、向量召回到大模型加持的语义理解，全面解析携程在智能搜索上的技术路径与实践经验。

8/5/2025 9:28:08 AM

复刻AlphaGo时刻？谷歌推出LLM评估新范式Game Arena：八大模型参赛，棋王当裁判

刚刚谷歌联合Kaggle推出了一个全新LLM评估平台- Game Arena，这个平台通过让LLM在战略游戏中直接对抗，提供一个客观、动态且可扩展的评估新范式。为庆祝平台上线，将在北美时间8月5日举行首次LLM象棋比赛，八大顶尖AI模型（谷歌，OpenAI，Anthropic，xAI，DeepSeek，月之暗面）参与、世界棋王马格努斯·卡尔森等人解说据谷歌DeepMind CEO Demis Hassabis透露，目前模型的表现都不好另外OpenAI已经确定本周有重大发布，谷歌也表示会整大活，这个新的评估基准可能就是其中之一，这周大家可以期待一下，据说Claude 4.1也会发布，简直神仙打架，各位记得星标我，这样可以第一时间收到最新消息以下是关于Kaggle Game Arena详细信息谷歌DeepMind与全球最大的数据科学社区Kaggle共同宣布，正式推出Kaggle Game Arena——一个开放的、以战略游戏为核心的AI基准测试平台。

8/5/2025 9:20:49 AM

阿里刚刚开源Qwen-Image，免费版GPT-4o吉卜力，中文最好模型

8/5/2025 9:15:15 AM

27M参数逆袭千亿大模型！小而美AI正式挑战OpenAI霸权

一个明显的趋势是，AI圈正在上演一场前所未有的"大卫战歌利亚"的逆袭好戏。当所有人都在追逐千亿参数的庞然大物时，一个仅有27M参数的"小不点"却悄然打破了游戏规则。昨天看到一个消息，挺震撼的。

8/5/2025 9:13:12 AM 阿丸笔记

奥特曼：ChatGPT只是意外，全能AI智能体才是真爱！Karpathy：7年前就想到了

历史往往都是由无数「意外和巧合」所塑造的。 2022年，当研究员Hunter Lightman加入OpenAI时，他的同事们正忙于引爆全球的ChatGPT——这无疑是史上用户增长最快的现象级产品。然而，Lightman却悄悄投身于一个看似不起眼的团队：MathGen。

8/5/2025 9:08:00 AM

监督学习未死，一题训练五小时起飞！华人学者新方法20倍训练效率释放大模型推理能力

大模型推理能力研究中，可验证奖励的强化学习（RL with Verifiable Rewards, 简称 RLVR）技术频频突破，尤其是“一题强化学习”（RL on One Example）在多个任务中表现亮眼，引发了广泛讨论。但与此同时，一个现实难题也随之而来：哪怕只使用一个样本，RL的训练也往往需要上百小时的A100GPU支撑，资源成本极高；而训练过程的高度不稳定，也给复现和实际部署带来了极大障碍；相比之下，传统的监督式微调（SFT）虽然计算负担小，但在低数据量下极易过拟合，效果难以保证。有没有一种方法，不依赖复杂的反馈信号，也不需要成千上万的数据样本，就能有效激发LLM中已蕴藏的推理能力？

8/5/2025 9:05:00 AM

在WAIC耳朵听出茧子的「智能体」，是时候系统学一下了

在今年的世界人工智能大会（WAIC）上，智能体是绝对的主角，从 C 端产品到企业级应用，每家参展的 AI 厂商似乎都要提一下在智能体方向的布局。这其实揭示了一个重要转变：人们不再把 AI 大模型当成一个单纯的聊天机器人，而是希望它能像人一样主动思考、制定计划、使用各种工具来完成任务，这是接下来大模型走向应用的重要方向。看来，对于 AI 从业者来说，是时候系统了解一下「智能体」了。

8/4/2025 3:45:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉