资讯列表
聚焦结构化注意力,探索提升多模态大模型文档问答性能
本文聚焦多模态大语言模型(MLLMs)在文档问答(DocQA)任务中的性能提升,提出无需改动模型架构或额外训练的结构化输入方法,通过保留文档层次结构与空间关系(如标题、表格、图像位置)优化理解能力。 研究发现,传统无结构OCR输入导致注意力分散,性能下降,而 LaTeX 范式结构化输入显著提升表现。 注意力分析揭示其诱导“结构化注意力”,减少无关区域干扰,聚焦语义核心。
9/11/2025 1:23:28 PM
互联网算法团队
科技赋能骑手权益保障:饿了么、美团、京东外卖算法优化升级
在即时配送行业高速发展的背景下,头部平台正通过算法优化与劳动规则重构,探索科技与人文关怀的平衡点。 9月10日,饿了么在上海召开算法和劳动规则协商恳谈会,联合多方代表签署《2025年度算法和劳动规则协议》,覆盖超400万骑手群体,标志着行业在劳动者权益保障领域迈出关键一步。 饿了么算法改革:从“负向约束”到“正向激励”此次协议的核心突破在于管理机制的颠覆性变革。
9/11/2025 1:13:43 PM
极客AI
王坚最新演讲曝光:开源正在进入资源时代,AI不能缺席太空,曝近期进展:三体计算星座分享太空!几年后太阳卫星;AI闭源是历史性错误
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)“只有把AI和算力送入太空,人类才有可能真正的走出地球! ”“开源已经进入了开放资源时代! ”“OpenAI闭源并不是一个策略性的错误,而是一个历史的选择。
9/11/2025 12:23:22 PM
云昭
英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛
AI 开发复杂软件的时代即将到来? 近年来,以 Google 的 AlphaEvolve 为代表的研究已经证明,AI 智能体可以通过迭代来优化算法,甚至在某些小型、独立的编程任务上超越人类。 然而,这些工作大多局限于几百行代码的「算法内核」或单个文件。
9/11/2025 11:48:00 AM
机器之心
大模型智能体不止能写代码,还能被训练成白帽黑客
当人们还在惊叹大模型能写代码、能自动化办公时,它们正在悄然踏入一个更敏感、更危险的领域 —— 网络安全。 想象一下,如果 AI 不只是写代码的助手,而是能够像「白帽黑客」一样,在不破坏系统的前提下模拟攻击、发现漏洞、提出修复建议,会带来怎样的改变? 这个问题,最近由 Amazon AWS AI 的 Q Developer 团队给出了答案。
9/11/2025 11:42:00 AM
机器之心
美国参议员提出“SANDBOX 法案” 允许AI公司设定长达10年自我监管规则
近日,美国参议员特德・克鲁兹(Ted Cruz)提出了一项名为 “SANDBOX 法案” 的新立法。 这项法案旨在为人工智能(AI)公司提供一个 “监管沙箱”,让它们在较少的联邦监管下进行实验。 图源备注:图片由AI生成,图片授权服务商Midjourney根据该法案,AI 公司可以申请修改或豁免任何 “阻碍性规定”,以便更方便地测试和部署包含或使用至少一个 AI 系统的产品或服务。
9/11/2025 11:01:32 AM
AI在线
20亿美金种子轮后首次发声!Mira Murati神秘实验室挑战AI随机性,誓要让机器思维变得可预测
硅谷最神秘的AI实验室终于撕开了面纱的一角。 自从前OpenAI首席技术官Mira Murati带着 20 亿美元的惊人种子资金和一众顶级研究人员创立思维机器实验室以来,整个科技圈都在屏息以待,想要一探这个全明星团队究竟在酝酿什么样的技术革命。 现在,答案开始浮出水面。
9/11/2025 11:01:29 AM
AI在线
开启MPV家庭新时代,魏牌高山7正式启动预售
9月10日,主题为「一家人的移动大客厅,每个人都有好位置」的魏牌高山7预售发布会在保定举行。 魏牌深刻洞察家庭用户出行痛点,围绕灵活、空间、智能、性能、安全五大维度,打造30万内MPV产品力天花板,致力让高山7成为「一家人的移动大客厅」,并让「每个人都有好位置」。 恰逢教师节,长城汽车董事长魏建军现场「监考」,魏牌CEO冯复之以「考生」身份真诚答卷,并邀请媒体、用户一起监督「没有吹牛」、「不讲大话」。
9/11/2025 10:37:00 AM
新闻助手
B站开源IndexTTS-2.0:突破自回归TTS时长与情感控制瓶颈
近日,哔哩哔哩(B站)Index团队正式宣布,其自主研发的情感可控、时长可调的自回归零样本文本转语音(TTS)系统——IndexTTS-2.0,已全面开源。 该系统的发布被广泛视为零样本TTS技术迈向实用化阶段的关键里程碑。 在语音合成领域,精准的时长控制与自然的情感表达一直是长期存在的技术难题。
9/11/2025 10:28:33 AM
量子位的朋友们
世界首富换人!81岁硅谷狂人4000亿身价碾压马斯克,33岁华裔才女逆袭
世界首富,一夜易主! 昨晚,甲骨文创始人Larry Ellison净资产暴增超1000亿,创有史以来单日最大财富增长纪录。 如今,他的身价高达3930亿美元,超越马斯克(3850亿美元),登顶全球首富。
9/11/2025 10:05:06 AM
李飞飞一年前究竟说了啥?怎么又火了
大语言模型的局限在哪里? AI教母李飞飞这样说:大自然中是没有语言存在的,你不会从天空中直接看到文字。 语言是一种纯粹的生成的信号。
9/11/2025 10:02:33 AM
为什么 LangChain ReAct 机制值得关注 ?
在当前由大型语言模型(LLM)驱动的应用开发浪潮中,如何赋予模型超越文本生成、具备可靠推理与行动的能力,已成为衡量其智能水平的关键分野。 正是在这一背景下,Langchain 框架中的 ReAct(Reasoning and Acting)机制应运而生,并迅速成为业界瞩目的焦点。 ReAct 不仅仅是一种技术实现,更是一种富有远见的智能代理(Agent)设计哲学。
9/11/2025 10:01:45 AM
Luga Lee
3000亿美元天价合同震撼硅谷!OpenAI牵手Oracle,五年云计算超级协议重塑AI格局
硅谷的夜空被一笔史无前例的巨额交易点亮了。 Oracle公司的股价在昨日收盘后如火箭般冲天而起,背后的推手正是该公司宣布与多家客户签署了数十亿美元级别的重磅合同。 而现在,这些神秘客户的身份终于浮出水面,其中最令人震撼的名字莫过于OpenAI。
9/11/2025 9:56:46 AM
AI在线
微软与 OpenAI 战略转变,探索新合作伙伴关系
近期,微软与 OpenAI 的合作关系似乎正在发生变化,两者都在寻求更多的独立性。 根据《华尔街日报》的报道,OpenAI 已与甲骨文签署了一项计算资源的协议,交易额可能高达3000亿美元。 这一协议与 OpenAI 在七月份宣布的4.5吉瓦 Stargate 数据中心容量开发协议并无直接关系。
9/11/2025 9:56:30 AM
AI在线
YouTube全球化神器正式上线!AI配音让视频观看时长暴涨25%,数百万创作者迎来流量新风口
一场席卷全球视频创作圈的语言革命正在YouTube平台上轰轰烈烈地展开。 这个全球最大的视频平台在周三宣布了一个令创作者们兴奋不已的重磅消息:经过整整两年的精心打磨和测试,多语言音频功能终于从实验室走向了全面应用。 数百万YouTuber现在可以为自己的视频添加不同语言的配音,这扇通往全球观众的大门正式向他们敞开。
9/11/2025 9:56:26 AM
AI在线
AI代理8小时赚4500美元-程序员真的要失业了
一个明显的趋势是,AI正在从简单的代码补全工具,悄然进化成能够独立完成整个开发项目的"超级程序员"。 当我看到一个AI代理在8小时内完成Shopify扩展开发,并为客户节省了4500美元成本的消息时,说实话,第一反应是——这怎么可能? 但这确实发生了。
9/11/2025 9:19:46 AM
阿丸笔记