理论
聚焦结构化注意力,探索提升多模态大模型文档问答性能
本文聚焦多模态大语言模型(MLLMs)在文档问答(DocQA)任务中的性能提升,提出无需改动模型架构或额外训练的结构化输入方法,通过保留文档层次结构与空间关系(如标题、表格、图像位置)优化理解能力。 研究发现,传统无结构OCR输入导致注意力分散,性能下降,而 LaTeX 范式结构化输入显著提升表现。 注意力分析揭示其诱导“结构化注意力”,减少无关区域干扰,聚焦语义核心。
9/11/2025 1:23:28 PM
互联网算法团队
科技赋能骑手权益保障:饿了么、美团、京东外卖算法优化升级
在即时配送行业高速发展的背景下,头部平台正通过算法优化与劳动规则重构,探索科技与人文关怀的平衡点。 9月10日,饿了么在上海召开算法和劳动规则协商恳谈会,联合多方代表签署《2025年度算法和劳动规则协议》,覆盖超400万骑手群体,标志着行业在劳动者权益保障领域迈出关键一步。 饿了么算法改革:从“负向约束”到“正向激励”此次协议的核心突破在于管理机制的颠覆性变革。
9/11/2025 1:13:43 PM
极客AI
王坚最新演讲曝光:开源正在进入资源时代,AI不能缺席太空,曝近期进展:三体计算星座分享太空!几年后太阳卫星;AI闭源是历史性错误
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)“只有把AI和算力送入太空,人类才有可能真正的走出地球! ”“开源已经进入了开放资源时代! ”“OpenAI闭源并不是一个策略性的错误,而是一个历史的选择。
9/11/2025 12:23:22 PM
云昭
世界首富换人!81岁硅谷狂人4000亿身价碾压马斯克,33岁华裔才女逆袭
世界首富,一夜易主! 昨晚,甲骨文创始人Larry Ellison净资产暴增超1000亿,创有史以来单日最大财富增长纪录。 如今,他的身价高达3930亿美元,超越马斯克(3850亿美元),登顶全球首富。
9/11/2025 10:05:06 AM
李飞飞一年前究竟说了啥?怎么又火了
大语言模型的局限在哪里? AI教母李飞飞这样说:大自然中是没有语言存在的,你不会从天空中直接看到文字。 语言是一种纯粹的生成的信号。
9/11/2025 10:02:33 AM
为什么 LangChain ReAct 机制值得关注 ?
在当前由大型语言模型(LLM)驱动的应用开发浪潮中,如何赋予模型超越文本生成、具备可靠推理与行动的能力,已成为衡量其智能水平的关键分野。 正是在这一背景下,Langchain 框架中的 ReAct(Reasoning and Acting)机制应运而生,并迅速成为业界瞩目的焦点。 ReAct 不仅仅是一种技术实现,更是一种富有远见的智能代理(Agent)设计哲学。
9/11/2025 10:01:45 AM
Luga Lee
AI代理8小时赚4500美元-程序员真的要失业了
一个明显的趋势是,AI正在从简单的代码补全工具,悄然进化成能够独立完成整个开发项目的"超级程序员"。 当我看到一个AI代理在8小时内完成Shopify扩展开发,并为客户节省了4500美元成本的消息时,说实话,第一反应是——这怎么可能? 但这确实发生了。
9/11/2025 9:19:46 AM
阿丸笔记
重磅!Thinking Machines开山之作:大模型输出随机的根本原因被揪出,并开源终结方案
要理解AI,先要理解它何以不确定,由OpenAI前CTO Mira Murati创办的Thinking Machines 开山之作来了,刚刚,Thinking Machines Lab 宣布正式上线技术研究博客:连接主义。 开篇就是万字技术雄文《击败LLM推理中的非确定性(Defeating Nondeterminism in LLM Inference)》。 为什么叫“连接主义”?
9/11/2025 9:04:00 AM
启发首席营销官的十大非AI领域的变革性创新
要点概览:CMO(首席营销官)作为企业的“指挥者”:数字化转型早已不只是IT的事情,CMO正在塑造客户体验和企业的数字化叙事。 颠覆即进步:Scott Anthony将颠覆重新定义为简化复杂性、让昂贵变得可负担的驱动力。 历史是最佳指南:《Epic Disruptions》强调,过去的成败为应对AI与未来浪潮提供了最有价值的经验。
9/11/2025 7:00:00 AM
Myles Suer
用 MarkItDown-MCP 让你的 AI 编程助手“通吃”各种文件!
大家好! 今天要跟大家聊一个超级实用的工具——MarkItDown-MCP! 如果你平时用 AI 编程助手(比如 Claude、Cursor 之类)写代码、查文档、处理数据,是不是经常遇到这样的烦恼:有些文件格式 AI 读不了,或者读起来效果不佳?
9/11/2025 4:00:00 AM
道玄
“扁平+拓扑”双索引,85页PDF"秒级"推理,MMRag幻觉率骤降76%
多模态长文档视觉问答(Multimodal Long-context Document Question Answering, 后文简称 M-L-DocQA)要求系统在给定一份可能长达数十页, 包含:文本、表格、图表、图像与版式元素的 PDF。 自动定位并融合跨页、跨模态的证据,最终生成自然语言答案。 图片这种任务常见于科研论文、上市公司年报、产品说明书、政府统计报告等场景。
9/11/2025 2:22:00 AM
CourseAI
数据集质量正成为AI大模型的终极壁垒
"老板,我们的模型效果怎么还是这么差? "小李拿着测试报告,一脸无奈地走进了技术总监的办公室。 "数据质量怎么样?
9/11/2025 2:00:00 AM
大数据AI智能圈
幻觉成了AI的“癌症”,连OpenAI也治不了
学生参加考试,当他不知道题目的答案时,可能会猜测。 实际上,AI聊天机器人也一样。 AI给出的答案可能看起来正确,实际却是完全错误的,这就是所谓的“幻觉”。
9/11/2025 1:00:00 AM
小刀
首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽
数据智能体到底好不好用? 测评一下就知道了! 南洋理工大学、新加坡国立大学携手华为开源推出首个专门针对数据智能体(Data Agents)异构混合数据分析的综合性基准测试FDABench。
9/10/2025 6:03:16 PM
快慢思考不用二选一!华为开源7B模型实现自由切,精度不变思维链减近50%
国产自研开源模型,让模型不用在快思考和慢思考间二选一了! 华为最新发布openPangu-Embedded-7B-v1.1,参数只有7B,却身怀双重“思维引擎”。 要知道,长期以来,大模型快思考与慢思考模式不可兼得,这成为业界的一大痛点。
9/10/2025 6:01:33 PM
真·博士水平!GPT-5首次给出第四矩定理显式收敛率,数学教授只点拨了一下
GPT-5真不愧是博士水平的AI! 在数学教授引导下,它首次将定性的第四矩定理扩展为带有显式收敛率的定量形式。 简单来讲就是,原来的定理仅说明收敛会发生,却没有给出具体速度,而借助GPT-5,这项研究首次明确了收敛速率。
9/10/2025 6:00:58 PM
数十亿人将用上免费AGI!OpenAI奥特曼高调断言:全球经济将迎来极度通缩!效率强如DeepSeek,全球AI也需百吉瓦能源!
编辑 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto)奥特曼最新判断来了:未来会有数十亿人使用免费的 AGI! 不只是价格更低,而是以一种前所未有的方式,大规模普及到全球每一个角落。 同时,他认为,AI 所带来的巨大技术红利,将推动全球经济进入极度通缩的状态。
9/10/2025 5:42:29 PM
伊风
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
Gemini
马斯克
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
特斯拉
场景
AI模型
深度学习
亚马逊
架构
Transformer
MCP
编程
Copilot
视觉