AI在线 AI在线

模型

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入

在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。 近日,字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding——一款专为大规模推荐场景设计的全模态嵌入基础模型,不仅实现了视觉、文本、音频的统一表征,更在抖音真实业务场景中带来显著效果提升,相关技术报告已正式公开。 论文标题:SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model技术报告: 能力概览突破传统局限:全模态 工业级优化双管齐下现有多模态嵌入模型主要分为两类:以 CLIP 为代表的双塔架构,虽高效但模态融合浅;以 MLLM 为基础的融合架构,虽语义能力强却多局限于图文模态。
11/4/2025 9:00:00 AM

说话像ChatGPT,统统拉黑!「AI腔」正毁掉社交,奥特曼都受不了

遇到AI,直接拉黑。 不是AI,说话像AI的也拉黑! 自ChatGPT发布以来,「AI腔」就一直颇受网友诟病。
11/4/2025 8:50:00 AM

大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”

多模态大模型(MLLM)在自然图像上已取得显著进展,但当问题落在图表、几何草图、科研绘图等结构化图像上时,细小的感知误差会迅速放大为推理偏差。 线性、刚性的“链式思考”流程也难以支撑复杂任务中必要的回溯与分支探索。 为此,微软亚洲研究院联合清华大学、香港科技大学提出PixelCraft:以高保真图像处理与非线性多智能体推理为两大支柱,系统性提升结构化图像理解的准确性、鲁棒性与可解释性,在多个图表与几何基准上给出一致的性能增益。
11/4/2025 8:44:00 AM

AI正悄悄宠坏你!斯坦福研究证实:AI正用谄媚降低我们修复人际关系的能力

斯坦福、卡内基梅隆大学的一项研究证实,AI可能正在用一种极其隐蔽的方式,让我们变得更固执,更不愿意修复重要的人际关系。 研究揭示了一个令人不安的真相:我们偏爱并信任的AI模型,恰恰是那些通过无条件肯定我们,从而损害我们亲社会行为的模型。 这形成了一个危险的闭环。
11/3/2025 5:33:10 PM

综述238篇遥感微调!清华院士团队指出9大方向 | CVMJ

近年来,在大数据与大模型的共同驱动下,遥感图像解译的热点正从模型结构设计转向「基础模型 微调」的新范式。 在丰富且复杂的任务场景中,依托预训练的通用表征作为基础,通过任务化适配,可以实现更强的迁移能力和应用效果。 面对土地调查、农业监测、天气预报、海洋导航等关键应用领域所面临的「小样本、长尾目标、算力受限」的现实挑战,微调技术以其独特的优势,在更低的数据和资源成本投入下,取得更好的任务性能和更高的部署效率。
11/3/2025 9:12:00 AM

突发!arXiv CS新规:未经同行评审,一律不收

arXiv重磅新规! 从现在起,arXiv中的CS板块,关于「综述/调研」和「立场」类的论文,全部经由同行评审后,才可以被收录。 也就是说,以后不带「同行评审通行证」,就别想上车!
11/3/2025 9:09:00 AM

锁定角色,「多主体」也可控!个性化文生图,给你PS般交互体验

大型扩散模型(如 Stable Diffusion)让我们能够从文字生成高保真的图像。 但当用户希望「生成我和我的朋友们在不同场景中的照片」时,现有的个性化生成方法(如 DreamBooth、IP-Adapter)仍面临两个根本问题:缺乏交互性:无法自由控制人物的空间位置、大小与关系。 难以扩展到多主体:每多一个人,内存和算力就线性增长。
11/3/2025 9:08:00 AM

AI首胜人类博士,顶会论文秒变代码!港大90后开源刷爆8k星

在AI领域,学术论文往往承载了算法、模型架构等方面的最前沿突破。 但想要真正理解论文的核心知识,并成功复现其中的算法和实验结果,却经常面临巨大挑战。 问题的主要症结,在于「关键实现细节」上的缺失!
11/3/2025 9:07:00 AM

谁杀死了那篇好论文?AI顶会乱象:好论文被刷,低分论文被捧上天

在AI顶会上当审稿人,本该是一份体面又严肃的工作。 但对这位AAAI 2026的评审来说,今年的经历却奇怪得离谱。 他在Reddit上写道:这是我见过最混乱的审稿流程。
11/3/2025 9:06:00 AM

断网后才发现脑子空空?132页论文实证:「脑腐」或成AI头号内伤

所有人都在加速拥抱AI,却几乎没人追问:它把我们的大脑变成什么? X用户Alex Prompter,刚啃完了一篇132页的研究,结论足以让任何创作者、营销人、创业者后背发凉。 独立研究人员、高级项目经理Rénald Gesnot,从认知、社会、伦理与哲学等多维视角审视AI如何重塑人的思维。
11/3/2025 9:05:00 AM

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

本文作者来自北京大学和阿里通义万相实验室。 其中论文第一作者是汤昊,北京大学 2022 级博士生,发表多篇 NeurIPS, CVPR,ICCV 和 ECCV,目前主要关注统一的多模态理解和生成。 指导教授是王立威老师,北京大学智能学院教授,曾获 NeurIPS 2024 和 ICLR 2023 最佳论文奖。
11/3/2025 9:03:00 AM

硅谷今夜学中文!Cursor被曝「套壳」国产,AI顶级人才全是华人

如果你关注最近硅谷的AI圈子,你会发现最近出现一个神奇的现象。 当国内都在学英语看文献的时候,国外的AI圈子都说中文了! 简直是倒反天罡。
11/3/2025 8:59:00 AM

内存直降50%,token需求少56%!用视觉方式处理长文本

在处理短文本时,大语言模型(LLM)已经表现出惊人的理解和生成能力。 但现实世界中的许多任务——如长文档理解、复杂问答、检索增强生成(RAG)等——都需要模型处理成千上万甚至几十万长度的上下文。 与此同时,模型参数规模也从数十亿一路飙升至万亿级别。
11/3/2025 8:58:00 AM

Cursor“自研”模型套壳国产开源?网友:毕竟好用又便宜

美国顶流AI产品“套壳”中国开源大模型,这事儿上“热搜”了(doge)。 𝕏网友都在感叹:大家都认为中国大模型正在迎头赶上。 不,它们已经赶上了。
11/3/2025 8:52:00 AM

向黄仁勋汇报的英伟达36人

市值第一巨头英伟达里,都有谁可以直接向CEO黄仁勋汇报? 36人。 这是最新被曝光的数字。
11/3/2025 8:51:00 AM

Sora天才辍学生归来!OpenAI组建三人神秘小队,豪赌超级人工智能

Sora背后的核心贡献者之一,这位00后的天才辍学生Will Depue,准备再次搞个大事情。 刚刚,他宣布下一个目标是,超级人工智能ASI! 在结束一段长期休息后,Will Depue宣布他再次回到OpenAI。
10/31/2025 3:55:12 PM

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

刚刚,OpenAI推出了使用GPT-5寻找和修复安全漏洞的智能体Aardvark。 目前,Aardvark还处于beta测试阶段。 OpenAI称,Aardvark开创了「防御者优先」的新范式:作为自主安全研究智能体,随代码不断演化,为团队提供持续保护(continuous protection)。
10/31/2025 3:53:06 PM

OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复

AI Coding火了大半年,AI Debugging也来了! 刚刚,OpenAI发布由GPT-5驱动的“白帽”Agent——Aardvark(土豚)。 这只“AI安全研究员”能帮助开发者和安全团队,在大规模代码库中自动发现并修复安全漏洞。
10/31/2025 9:02:07 AM