AI在线 AI在线

资讯列表

文心4.5最强衍生模型发布 PaddleOCR-VL登顶OCR综合性能全球第一

10月16日晚,百度正式发布并开源自研多模态文档解析模型PaddleOCR-VL。 在全球权威文档解析评测榜单OmniBenchDoc V1.5中,PaddleOCR-VL以92.6分取得综合性能全球第一成绩,四大核心能力(文本、表格、公式、阅读顺序)全线SOTA,超越 GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B等主流多模态大模型,以及MonkeyOCR-Pro-3B、MinerU2.5、dots.ocr等OCR专业模型,刷新全球OCR VL模型性能天花板。 据了解,PaddleOCR-VL其核心模型参数仅0.9B,轻量高效,能够在极低计算开销下,精准识别文本、手写汉字、表格、公式、图表等复杂元素,支持109 种语言,覆盖中文、英语、法语、日语、俄语、阿拉伯语、西班牙语等多语场景,广泛适用于政企文档管理、知识检索、档案数字化、科研信息抽取等文档智能任务。
10/17/2025 11:35:00 AM
新闻助手

0.9B问鼎SOTA 文心4.5衍生模型PaddleOCR-VL发布并开源

10月16日晚,百度正式发布并开源自研多模态文档解析模型PaddleOCR-VL。 在全球权威文档解析评测榜单OmniBenchDoc V1.5中,PaddleOCR-VL以92.6分取得综合性能全球第一成绩,四大核心能力(文本、表格、公式、阅读顺序)全线SOTA,超越. GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B等主流多模态大模型,以及MonkeyOCR-Pro-3B、MinerU2.5、dots.ocr等OCR专业模型,刷新全球OCR VL模型性能天花板。
10/17/2025 10:55:45 AM

2025天猫双11成AI商业落地新里程碑:发布6款AI导购应用

16日,阿里巴巴宣布首个 AI 全面落地的天猫双11,AI 技术将深度融入流量分发、消费者体验和商家经营的全链路,为消费者带来更智能、更高效的购物体验,同时帮助商家实现增长与降本增效。 在天猫双11发布会上,阿里巴巴中国电商事业群搜推智能总裁凯夫表示:“‘好用的AI’是淘宝AI应用的检验标准。 我们希望AI能真正解决消费者的购物痛点,也能帮助商家实现生意增长。
10/17/2025 10:51:57 AM
AI在线

Anthropic 预计2026年收入将突破200亿美元,企业客户贡献八成营收

随着人工智能市场持续井喷,路透社援引两位知情人士的消息报道,知名 AI 初创公司 Anthropic 预计其年收入将在未来两年内实现近三倍的增长。 这家公司目前正处于强劲的增长轨道上,主要得益于其快速扩张的企业客户基础。 Anthropic 预计其年收入目标如下:2025年底: 预计年收入将达到 90亿美元。
10/17/2025 10:51:55 AM
AI在线

苹果连续12年蝉联全球最具价值品牌,报告揭示信任与设计重于 AI 狂热

尽管科技界正沉浸在人工智能(AI)的热潮中,但根据 Interbrand 发布的《2025年全球最佳品牌》报告,苹果公司凭借其持久的信任和卓越的设计体验,连续第十二年荣登榜首。 这证明了在“算法炒作”时代,品牌的核心价值和生态系统连贯性仍是决定性因素。 品牌价值:苹果小幅下滑,但领先优势稳固报告显示,苹果的品牌价值为 4709亿美元,较2024年轻微下降4%,但这被 Interbrand 描述为一种“暂停,而非逆转”。
10/17/2025 10:51:53 AM
AI在线

Strella 获 1400 万美元融资,推动 AI 面试技术革新客户研究

初创企业 Strella 近日宣布完成1400万美元的 A 轮融资,计划进一步拓展其基于 AI 的客户研究平台。 此次融资由 Bessemer Venture Partners 领投,Decibel Partners、Bain Future Back Ventures、MVP Ventures 和645Ventures 等参与。 这家成立不到一年的公司,旨在帮助企业如亚马逊和 Duolingo 加快客户反馈收集速度,解决传统研究方法耗时长的问题。
10/17/2025 10:51:48 AM
AI在线

NEURA Robotics落子杭州,为“物理AI”架设全球桥梁

10月16日,欧洲认知机器人龙头NEURA Robotics宣布其杭州新址及协作中心正式启用。 该“NEURA Hub”将聚焦数据驱动的机器人训练,并与国内龙头产业伙伴展开深度协作。 此次落地标志着NEURA全球战略的重要里程碑:在保持其欧洲创新基因的同时,立足亚洲机器人产业腹地,以全球视野加速技术迭代。
10/17/2025 10:37:28 AM
量子位的朋友们

单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世

单 GPU 级世界模型来了。 斯坦福大学教授李飞飞创业公司 World Labs 又推出了新成果! 上个月,World Labs 发布了空间智能模型 Marble,「只需一张图片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼。
10/17/2025 10:29:00 AM
机器之心

全球创业比赛,139个国家和地区参加,中国具身机器人公司获奖!

10月16日,HICOOL 2025全球创业大赛获奖名单揭晓,智平方(AI² Robotics)从全球139个国家和地区的一万多个参赛项目中脱颖而出,斩获海外组一等奖,成为一等奖中唯一的机器人企业! HICOOL全球创业大赛堪称国际创业者的“奥斯卡”,已连续五年吸引全球顶尖创新项目参与。 2025年赛事规模实现历史性突破,共有10055个创业项目、13150名创业人才参赛,首次实现“双破万”。
10/17/2025 10:27:00 AM
新闻助手

RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场

苹果最近真是「高产」! 这几天,苹果在多模态 web 搜索中发现了赋能多模态大语言模型(MLLM)的新解法。 在现实世界的应用中,MLLM 需要访问外部知识源,并对动态变化的现实世界信息进行实时响应,从而解决信息检索和知识密集型的用户查询。
10/17/2025 10:25:00 AM
机器之心

Mamba 架构上顶会ICLR 2026,AI大脑核心Transformer的王座还能坐稳吗?

Transformer统治了AI大模型领域。 有人认为,实现AGI,Transformer就够了! 还有人认为,还需要几次底层架构革新。
10/17/2025 10:23:00 AM

欧几里得的礼物:通过几何代理任务增强视觉-语言模型中的空间感知和推理能力

本文共同第一作者为华中科技大学博士生连仕杰与华东师范大学博士生邬长倜,二者同时也是北京中关村学院2024级学生。 共同通讯作者包括:郑州大学学术副校长,郑州大学/华中科技大学教授,加拿大工程院/欧洲科学院院士杨天若教授;北京中关村学院&中关村人工智能研究院具身方向负责人陈凯。 近年来,多模态大语言模型(MLLMs)在广泛的视觉-语言任务中取得了显著成功。
10/17/2025 10:20:00 AM
机器之心

穹彻智能获阿里投资,加速具身智能全链路技术突破

穹彻智能于近日宣布完成新一轮融资,由阿里巴巴集团投资,多位老股东追投。 本轮资金将用于加速技术产品研发、具身应用落地和行业生态拓展。 穹彻智能成立于2023年底,此前完成了数亿元Pre-A 轮及Pre A 轮融资。
10/17/2025 10:10:00 AM
新闻助手

打败 Qwen2.5-VL,完全开源可复现 LLaVA-OneVision-1.5 的多模态模型

一个完全开源多模态模型,全面超越 Qwen2.5-VL。 LLaVA(Large Language and Vision Assistant,大型语言与视觉助手)的故事,是开源社区用两年时间,真正复现出一个顶级的多模态模型的拼搏史。 23年4月,一个名为 LLaVA 的开创性工作横空出世。
10/17/2025 10:03:23 AM

谷歌142页报告首发揭秘:90%码农每天用AI超2小时!

十年来,Google Cloud的DORA报告一直被视为观察全球软件团队的风向标。 而2025年这份新报告,把焦点放在了一个前所未有的主题上——AI已经全面渗透开发流程。 近五千名技术从业者的调研结果表明,AI不再是尝鲜,而是主流。
10/17/2025 9:59:28 AM

KV Cache直连:LLM协作的"神经突触"式通信革命

大家好,我是肆〇柒。 今天我们一起阅读一项有趣的创新性研究——由清华大学、上海交通大学、香港中文大学与上海人工智能实验室联合提出的Cache-to-Cache通信技术。 这项研究打破了传统LLM间必须通过文本进行通信的局限,让大语言模型能够像人类大脑神经元通过突触直接传递信号一样,通过KV Cache实现表征层的语义直连。
10/17/2025 9:58:36 AM
肆零柒

RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

让大模型按照人类意图行事,一直是AI领域的核心挑战。 目前主流的强化学习微调(RFT)方法虽然有效,但存在一个致命弱点:奖励过度优化(reward over-optimization)。 奖励过度优化是大模型对齐的「阿喀琉斯之踵」。
10/17/2025 9:56:05 AM

李飞飞全新「世界模型」问世!单张H100实时生成3D永恒世界

就在刚刚,李飞飞World Labs重磅发布全新实时生成式世界模型——RTFM(Real-Time Frame Model,实时帧模型)! 这是一款效率极高的,在大型视频数据上进行端到端训练的自回归扩散Transformer模型。 仅需一块H100 GPU,RTFM就能在你与之交互时,实时渲染出持久且3D一致的世界,无论是真实场景还是想象空间。
10/17/2025 9:53:23 AM