AI在线 AI在线

资讯列表

ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式

本文由北京智源研究院多模态大模型研究中心(团队负责人王鑫龙,团队代表作 EMU 系列、EVA 系列、Painter & SegGPT)、中科院自动化所和大连理工大学联合完成。  在多模态学习蓬勃发展的当下,视觉 tokenizer 作为连接视觉信息与下游任务的关键桥梁,其性能优劣直接决定了多模态模型的表现。 然而,传统的视觉 tokenization 方法存在一个致命缺陷:视觉 tokenizer 的优化与下游任务的训练是相互割裂的。
5/28/2025 9:17:00 AM

One RL to See Them All?一个强化学习统一视觉-语言任务!

强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。 然而,RL 在推理任务之外的应用,尤其是在目标检测和目标定位等感知密集型任务中的应用,仍有待深入探索。 近日,国内初创公司 MiniMax 提出了 V-Triune,一个视觉三重统一强化学习系统,它能使 VLM 在单一的训练流程中同时学习视觉推理和感知任务。
5/28/2025 9:15:00 AM

大厂程序员:AI正在将我们变成高速流水线工人,受不了了

万万没想到,大厂程序员真要成流水线工人了。 这不是谁危言耸听,而是亚马逊不少程序员最近的亲身感受——很早开始,亚马逊官方就鼓励大伙儿在工作中用AI。 结果发展到今天,“鼓励”更像是一种变相强迫:高层认为AI能提效,所以不少团队人员直接砍半,项目ddl却大大提前。
5/28/2025 9:13:00 AM

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜

推理大模型开卷新方向,阿里开源长文本深度思考模型QwenLong-L1,登上HuggingFace今日热门论文第二。 其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。 除测评分数外,论文中还详细展示了一个金融文档推理的案例。
5/28/2025 9:09:00 AM

谷歌·搜索:献给AI的第一个「祭品」?

谷歌打算用AI先革了自己的命,从搜索引擎开始。 在搜索的主页上,谷歌已经将AI Overviews和AI Mode排在了最前面。 谷歌搜索长期免费,主要依靠在搜索结果中投放广告来创收。
5/28/2025 9:04:00 AM

Meta宣布重组AI部门:拆分为“AI 产品”与“AGI 基础”两大团队

Meta 宣布重大 AI 部门重组,拆分为“AI 产品”与“AGI 基础”两大团队,以应对技术挑战并加快产品开发。 此次架构调整中,原有的 AI 部门被划分为两个核心团队:“AI 产品”组由 Connor Hayes 领导,专注于 Meta AI 助手及其在 Facebook、Instagram 和 WhatsApp 等平台上的功能应用。 “AGI 基础”组则由 Ahmad Al-Dahle 和 Amir Frenkel 共同执掌,聚焦于 Llama 模型的研发、先进推理能力及多模态模型的探索。
5/28/2025 9:00:50 AM
AI在线

​SAP 与阿里巴巴达成战略合作,接入阿里通义千问

近日,阿里巴巴集团与全球企业软件巨头 SAP 正式宣布达成全面战略合作。 此次合作旨在深度融合 SAP 的企业级解决方案与阿里云的云计算基础设施及人工智能能力,以共同推动全球企业的数字化转型进程。 根据双方的合作协议,SAP 将探索接入阿里巴巴的通义千问大模型。
5/28/2025 9:00:50 AM
AI在线

Mistral 推出 Agents API:为企业打造可协作、可记忆的 AI 代理

Mistral AI 推出全新 Agents API,旨在将语言模型扩展为面向企业实际应用的智能代理系统。 这一框架为基础语言模型增添了用于任务操作、上下文跟踪与代理编排的工具,使多个 AI 代理不仅能独立执行任务,还能协同合作、接入外部系统,构建完整的业务流程。 每个代理可通过连接器与 MCP(模型上下文协议)工具对接,支持运行 Python 脚本、网页搜索、生成图像(由 Black Forest Lab FLUX1.1[pro] Ultra 驱动),或从 Mistral Cloud 中提取文档。
5/28/2025 9:00:50 AM
AI在线

Trae国际版开启付费订阅模式,首月Pro订阅仅3美元,Claude4加持

Trae,作为由ByteDance推出的AI驱动集成开发环境(IDE),自2025年1月20日发布以来,以其强大的AI功能和无缝的开发体验迅速在全球开发者社区中崭露头角。 近期,Trae国际版正式推出付费订阅策略,标志着其从完全免费向可持续商业模式的转变。 本篇报道由AIbase整理,基于最新网络信息,带您深入了解Trae国际版付费策略的细节及其对开发者的潜在影响。
5/28/2025 9:00:50 AM
AI在线

一文读懂 RAG Fixed-Size Chunking 策略解析与优秀实践

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的 RAG 架构的切块策略—Fixed-Size Chunking(固定切块)。 众所周知,在构建 RAG(Retrieval-Augmented Generation,检索增强生成)系统的过程中,文档切块策略往往决定了模型检索质量的上限。 切得好,信息命中更精准,生成回答更有上下文逻辑;切得差,模型则容易“答非所问”。
5/28/2025 9:00:00 AM
Luga Lee

告别卡脖子,华为黑科技破局!昇腾推理加速1.6倍打破LLM降智魔咒

LLM发展到今天,下一步该往哪个方向探索? 显然,如今最明显的一个问题就是,大模型的参数规模还是太大了——DeepSeek-V3的参数为671B,Llama 3.1系列最大为405B,GPT-4o为200B,Claude 3.5 Sonnet为175B。 参数规模在不断增长,高昂的计算成本和推理延迟,该怎么破?
5/28/2025 8:51:00 AM

测试技术弹性并制定90天行动计划的五个问题

重大事件要求公司迅速作出反应,这意味着你的技术架构需要具备足够的敏捷性,以应对前所未有的环境变化。 技术演进的前所未有的速度、持续的地缘政治不稳定以及不断变化的贸易协定格局,只是许多公司近期不得不适应的几个动态因素。 最成功的企业是那些能够有效应对宏观事件的企业,无论是监管变化、技术发展、供应链调整还是市场准入重新调整。
5/28/2025 7:00:00 AM
Koenraad

性能优化!七个策略,让Spring Boot 处理每秒百万请求

环境:SpringBoot3.4.21. 简介在实施任何优化前,我首先明确了性能基准。 这一步至关重要——若不清楚起点,便无法衡量进展,也无法定位最关键的改进方向。
5/28/2025 5:10:00 AM
Springboot实战案例锦集

我的RAG开源项目300+star了,十分适合新手入门(日志级详细拆解)

三个月前,我在 Github 上开源的一个 RAG 练手项目,目前已经有了 327 个 star,总共解决了 22 个 issues。 结合过去几个月的项目实践,我重新对项目做了轻量化重构,降低资源消耗与部署门槛。 项目地址:,五脏俱全。
5/28/2025 5:00:00 AM
韦东东

谷歌最新 AI 编码助手,简直令人难以置信

哇,这也太厉害了。 谷歌在开发工具上变得异常认真。 他们的新 AI 编码助手真是惊艳至极。
5/28/2025 4:00:00 AM
前端小智

AI重塑数据治理的底层逻辑

上个月,一位老友约我喝茶。 他是某知名互联网公司的数据总监,聊天时满脸愁容。  "润总,我们公司数据治理团队有50多人,每天忙得团团转,可数据质量还是一团糟。
5/28/2025 4:00:00 AM
有趣有用有姿态的

MMaDA:多模态大型扩散语言模型的创新突破

大家好,我是肆〇柒。 今天,我们来聊聊一篇来自普林斯顿大学、北京大学、清华大学和字节跳动的研究团队的最新成果——MMaDA(Multimodal Large Diffusion Language Models)。 这项研究在多模态人工智能领域带来了新的突破,其创新的统一扩散架构和先进的后训练策略,为多模态任务的处理提供了全新的思路和解决方案。
5/28/2025 3:30:00 AM
肆零柒

AI问答系统的挑战之语义鸿沟与知识盲点,让大模型理解行业黑话

许多企业在引入通用型AI问答系统后,普遍面临两大核心技术挑战:语义理解的精准度不足和领域知识的深度缺失。 这直接导致系统在处理行业特定术语(黑话)时表现不佳,进而影响问答的准确性和用户体验。 行业黑话识别难题的技术根源通用AI模型主要依赖大规模、多领域的公开语料进行预训练。
5/28/2025 3:00:00 AM
贝塔街的万事屋