AI在线 AI在线

理论

聚焦结构化注意力,探索提升多模态大模型文档问答性能

本文聚焦多模态大语言模型(MLLMs)在文档问答(DocQA)任务中的性能提升,提出无需改动模型架构或额外训练的结构化输入方法,通过保留文档层次结构与空间关系(如标题、表格、图像位置)优化理解能力。 研究发现,传统无结构OCR输入导致注意力分散,性能下降,而 LaTeX 范式结构化输入显著提升表现。 注意力分析揭示其诱导“结构化注意力”,减少无关区域干扰,聚焦语义核心。
9/11/2025 1:23:28 PM
互联网算法团队

科技赋能骑手权益保障:饿了么、美团、京东外卖算法优化升级

在即时配送行业高速发展的背景下,头部平台正通过算法优化与劳动规则重构,探索科技与人文关怀的平衡点。 9月10日,饿了么在上海召开算法和劳动规则协商恳谈会,联合多方代表签署《2025年度算法和劳动规则协议》,覆盖超400万骑手群体,标志着行业在劳动者权益保障领域迈出关键一步。 饿了么算法改革:从“负向约束”到“正向激励”此次协议的核心突破在于管理机制的颠覆性变革。
9/11/2025 1:13:43 PM
极客AI

王坚最新演讲曝光:开源正在进入资源时代,AI不能缺席太空,曝近期进展:三体计算星座分享太空!几年后太阳卫星;AI闭源是历史性错误

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)“只有把AI和算力送入太空,人类才有可能真正的走出地球! ”“开源已经进入了开放资源时代! ”“OpenAI闭源并不是一个策略性的错误,而是一个历史的选择。
9/11/2025 12:23:22 PM
云昭

人工智能寒冬即将来临

规模给了我们工具,而不是思想。 这就是残酷的事实。 语言模型规模越来越大,并不能让我们更接近通用智能。
9/11/2025 10:35:28 AM
晓晓

世界首富换人!81岁硅谷狂人4000亿身价碾压马斯克,33岁华裔才女逆袭

世界首富,一夜易主! 昨晚,甲骨文创始人Larry Ellison净资产暴增超1000亿,创有史以来单日最大财富增长纪录。 如今,他的身价高达3930亿美元,超越马斯克(3850亿美元),登顶全球首富。
9/11/2025 10:05:06 AM

李飞飞一年前究竟说了啥?怎么又火了

大语言模型的局限在哪里? AI教母李飞飞这样说:大自然中是没有语言存在的,你不会从天空中直接看到文字。 语言是一种纯粹的生成的信号。
9/11/2025 10:02:33 AM

为什么 LangChain ReAct 机制值得关注 ?

在当前由大型语言模型(LLM)驱动的应用开发浪潮中,如何赋予模型超越文本生成、具备可靠推理与行动的能力,已成为衡量其智能水平的关键分野。 正是在这一背景下,Langchain 框架中的 ReAct(Reasoning and Acting)机制应运而生,并迅速成为业界瞩目的焦点。 ReAct 不仅仅是一种技术实现,更是一种富有远见的智能代理(Agent)设计哲学。
9/11/2025 10:01:45 AM
Luga Lee

AI代理8小时赚4500美元-程序员真的要失业了

一个明显的趋势是,AI正在从简单的代码补全工具,悄然进化成能够独立完成整个开发项目的"超级程序员"。 当我看到一个AI代理在8小时内完成Shopify扩展开发,并为客户节省了4500美元成本的消息时,说实话,第一反应是——这怎么可能? 但这确实发生了。
9/11/2025 9:19:46 AM
阿丸笔记

重磅!Thinking Machines开山之作:大模型输出随机的根本原因被揪出,并开源终结方案

要理解AI,先要理解它何以不确定,由OpenAI前CTO Mira Murati创办的Thinking Machines 开山之作来了,刚刚,Thinking Machines Lab 宣布正式上线技术研究博客:连接主义。 开篇就是万字技术雄文《击败LLM推理中的非确定性(Defeating Nondeterminism in LLM Inference)》。 为什么叫“连接主义”?
9/11/2025 9:04:00 AM

启发首席营销官的十大非AI领域的变革性创新

要点概览:CMO(首席营销官)作为企业的“指挥者”:数字化转型早已不只是IT的事情,CMO正在塑造客户体验和企业的数字化叙事。 颠覆即进步:Scott Anthony将颠覆重新定义为简化复杂性、让昂贵变得可负担的驱动力。 历史是最佳指南:《Epic Disruptions》强调,过去的成败为应对AI与未来浪潮提供了最有价值的经验。
9/11/2025 7:00:00 AM
Myles Suer

用 MarkItDown-MCP 让你的 AI 编程助手“通吃”各种文件!

大家好! 今天要跟大家聊一个超级实用的工具——MarkItDown-MCP! 如果你平时用 AI 编程助手(比如 Claude、Cursor 之类)写代码、查文档、处理数据,是不是经常遇到这样的烦恼:有些文件格式 AI 读不了,或者读起来效果不佳?
9/11/2025 4:00:00 AM
道玄

“扁平+拓扑”双索引,85页PDF"秒级"推理,MMRag幻觉率骤降76%

多模态长文档视觉问答(Multimodal Long-context Document Question Answering, 后文简称 M-L-DocQA)要求系统在给定一份可能长达数十页, 包含:文本、表格、图表、图像与版式元素的 PDF。 自动定位并融合跨页、跨模态的证据,最终生成自然语言答案。 图片这种任务常见于科研论文、上市公司年报、产品说明书、政府统计报告等场景。
9/11/2025 2:22:00 AM
CourseAI

数据集质量正成为AI大模型的终极壁垒

"老板,我们的模型效果怎么还是这么差? "小李拿着测试报告,一脸无奈地走进了技术总监的办公室。  "数据质量怎么样?
9/11/2025 2:00:00 AM
大数据AI智能圈

幻觉成了AI的“癌症”,连OpenAI也治不了

学生参加考试,当他不知道题目的答案时,可能会猜测。 实际上,AI聊天机器人也一样。 AI给出的答案可能看起来正确,实际却是完全错误的,这就是所谓的“幻觉”。
9/11/2025 1:00:00 AM
小刀

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

数据智能体到底好不好用? 测评一下就知道了! 南洋理工大学、新加坡国立大学携手华为开源推出首个专门针对数据智能体(Data Agents)异构混合数据分析的综合性基准测试FDABench。
9/10/2025 6:03:16 PM

快慢思考不用二选一!华为开源7B模型实现自由切,精度不变思维链减近50%

国产自研开源模型,让模型不用在快思考和慢思考间二选一了! 华为最新发布openPangu-Embedded-7B-v1.1,参数只有7B,却身怀双重“思维引擎”。 要知道,长期以来,大模型快思考与慢思考模式不可兼得,这成为业界的一大痛点。
9/10/2025 6:01:33 PM

真·博士水平!GPT-5首次给出第四矩定理显式收敛率,数学教授只点拨了一下

GPT-5真不愧是博士水平的AI! 在数学教授引导下,它首次将定性的第四矩定理扩展为带有显式收敛率的定量形式。 简单来讲就是,原来的定理仅说明收敛会发生,却没有给出具体速度,而借助GPT-5,这项研究首次明确了收敛速率。
9/10/2025 6:00:58 PM

数十亿人将用上免费AGI!OpenAI奥特曼高调断言:全球经济将迎来极度通缩!效率强如DeepSeek,全球AI也需百吉瓦能源!

编辑 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto)奥特曼最新判断来了:未来会有数十亿人使用免费的 AGI! 不只是价格更低,而是以一种前所未有的方式,大规模普及到全球每一个角落。 同时,他认为,AI 所带来的巨大技术红利,将推动全球经济进入极度通缩的状态。
9/10/2025 5:42:29 PM
伊风