模型

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding：打通「视、文、音」的全模态嵌入

抖音SAIL团队联合港中文MMLab推出SAIL-Embedding：打通「视、文、音」的全模态嵌入

在短视频推荐、跨模态搜索等工业场景中，传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。近日，字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding——一款专为大规模推荐场景设计的全模态嵌入基础模型，不仅实现了视觉、文本、音频的统一表征，更在抖音真实业务场景中带来显著效果提升，相关技术报告已正式公开。论文标题：SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model技术报告：能力概览突破传统局限：全模态工业级优化双管齐下现有多模态嵌入模型主要分为两类：以 CLIP 为代表的双塔架构，虽高效但模态融合浅；以 MLLM 为基础的融合架构，虽语义能力强却多局限于图文模态。

11/4/2025 9:00:00 AM

说话像ChatGPT，统统拉黑！「AI腔」正毁掉社交，奥特曼都受不了

说话像ChatGPT，统统拉黑！「AI腔」正毁掉社交，奥特曼都受不了

遇到AI，直接拉黑。不是AI，说话像AI的也拉黑！自ChatGPT发布以来，「AI腔」就一直颇受网友诟病。

11/4/2025 8:50:00 AM

大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”

大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”

多模态大模型（MLLM）在自然图像上已取得显著进展，但当问题落在图表、几何草图、科研绘图等结构化图像上时，细小的感知误差会迅速放大为推理偏差。线性、刚性的“链式思考”流程也难以支撑复杂任务中必要的回溯与分支探索。为此，微软亚洲研究院联合清华大学、香港科技大学提出PixelCraft：以高保真图像处理与非线性多智能体推理为两大支柱，系统性提升结构化图像理解的准确性、鲁棒性与可解释性，在多个图表与几何基准上给出一致的性能增益。

11/4/2025 8:44:00 AM

AI正悄悄宠坏你！斯坦福研究证实：AI正用谄媚降低我们修复人际关系的能力

AI正悄悄宠坏你！斯坦福研究证实：AI正用谄媚降低我们修复人际关系的能力

斯坦福、卡内基梅隆大学的一项研究证实，AI可能正在用一种极其隐蔽的方式，让我们变得更固执，更不愿意修复重要的人际关系。研究揭示了一个令人不安的真相：我们偏爱并信任的AI模型，恰恰是那些通过无条件肯定我们，从而损害我们亲社会行为的模型。这形成了一个危险的闭环。

11/3/2025 5:33:10 PM

综述238篇遥感微调！清华院士团队指出9大方向 | CVMJ

综述238篇遥感微调！清华院士团队指出9大方向 | CVMJ

近年来，在大数据与大模型的共同驱动下，遥感图像解译的热点正从模型结构设计转向「基础模型微调」的新范式。在丰富且复杂的任务场景中，依托预训练的通用表征作为基础，通过任务化适配，可以实现更强的迁移能力和应用效果。面对土地调查、农业监测、天气预报、海洋导航等关键应用领域所面临的「小样本、长尾目标、算力受限」的现实挑战，微调技术以其独特的优势，在更低的数据和资源成本投入下，取得更好的任务性能和更高的部署效率。

11/3/2025 9:12:00 AM

突发！arXiv CS新规：未经同行评审，一律不收

突发！arXiv CS新规：未经同行评审，一律不收

arXiv重磅新规！从现在起，arXiv中的CS板块，关于「综述/调研」和「立场」类的论文，全部经由同行评审后，才可以被收录。也就是说，以后不带「同行评审通行证」，就别想上车！

11/3/2025 9:09:00 AM

锁定角色，「多主体」也可控！个性化文生图，给你PS般交互体验

锁定角色，「多主体」也可控！个性化文生图，给你PS般交互体验

大型扩散模型（如 Stable Diffusion）让我们能够从文字生成高保真的图像。但当用户希望「生成我和我的朋友们在不同场景中的照片」时，现有的个性化生成方法（如 DreamBooth、IP-Adapter）仍面临两个根本问题：缺乏交互性：无法自由控制人物的空间位置、大小与关系。难以扩展到多主体：每多一个人，内存和算力就线性增长。

11/3/2025 9:08:00 AM

AI首胜人类博士，顶会论文秒变代码！港大90后开源刷爆8k星

AI首胜人类博士，顶会论文秒变代码！港大90后开源刷爆8k星

在AI领域，学术论文往往承载了算法、模型架构等方面的最前沿突破。但想要真正理解论文的核心知识，并成功复现其中的算法和实验结果，却经常面临巨大挑战。问题的主要症结，在于「关键实现细节」上的缺失！

11/3/2025 9:07:00 AM

谁杀死了那篇好论文？AI顶会乱象：好论文被刷，低分论文被捧上天

谁杀死了那篇好论文？AI顶会乱象：好论文被刷，低分论文被捧上天

在AI顶会上当审稿人，本该是一份体面又严肃的工作。但对这位AAAI 2026的评审来说，今年的经历却奇怪得离谱。他在Reddit上写道：这是我见过最混乱的审稿流程。

11/3/2025 9:06:00 AM

断网后才发现脑子空空？132页论文实证：「脑腐」或成AI头号内伤

断网后才发现脑子空空？132页论文实证：「脑腐」或成AI头号内伤

所有人都在加速拥抱AI，却几乎没人追问：它把我们的大脑变成什么？ X用户Alex Prompter，刚啃完了一篇132页的研究，结论足以让任何创作者、营销人、创业者后背发凉。独立研究人员、高级项目经理Rénald Gesnot，从认知、社会、伦理与哲学等多维视角审视AI如何重塑人的思维。

11/3/2025 9:05:00 AM

RAE的终极形态？北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

RAE的终极形态？北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊，北京大学 2022 级博士生，发表多篇 NeurIPS, CVPR，ICCV 和 ECCV，目前主要关注统一的多模态理解和生成。指导教授是王立威老师，北京大学智能学院教授，曾获 NeurIPS 2024 和 ICLR 2023 最佳论文奖。

11/3/2025 9:03:00 AM

硅谷今夜学中文！Cursor被曝「套壳」国产，AI顶级人才全是华人

硅谷今夜学中文！Cursor被曝「套壳」国产，AI顶级人才全是华人

如果你关注最近硅谷的AI圈子，你会发现最近出现一个神奇的现象。当国内都在学英语看文献的时候，国外的AI圈子都说中文了！简直是倒反天罡。

11/3/2025 8:59:00 AM

内存直降50%，token需求少56%！用视觉方式处理长文本

内存直降50%，token需求少56%！用视觉方式处理长文本

在处理短文本时，大语言模型（LLM）已经表现出惊人的理解和生成能力。但现实世界中的许多任务——如长文档理解、复杂问答、检索增强生成（RAG）等——都需要模型处理成千上万甚至几十万长度的上下文。与此同时，模型参数规模也从数十亿一路飙升至万亿级别。

11/3/2025 8:58:00 AM

Cursor“自研”模型套壳国产开源？网友：毕竟好用又便宜

Cursor“自研”模型套壳国产开源？网友：毕竟好用又便宜

美国顶流AI产品“套壳”中国开源大模型，这事儿上“热搜”了（doge）。 𝕏网友都在感叹：大家都认为中国大模型正在迎头赶上。不，它们已经赶上了。

11/3/2025 8:52:00 AM

向黄仁勋汇报的英伟达36人

向黄仁勋汇报的英伟达36人

市值第一巨头英伟达里，都有谁可以直接向CEO黄仁勋汇报？ 36人。这是最新被曝光的数字。

11/3/2025 8:51:00 AM

Sora天才辍学生归来！OpenAI组建三人神秘小队，豪赌超级人工智能

Sora天才辍学生归来！OpenAI组建三人神秘小队，豪赌超级人工智能

Sora背后的核心贡献者之一，这位00后的天才辍学生Will Depue，准备再次搞个大事情。刚刚，他宣布下一个目标是，超级人工智能ASI！在结束一段长期休息后，Will Depue宣布他再次回到OpenAI。

10/31/2025 3:55:12 PM

颤抖吧，Bug！OpenAI放出GPT-5「夜行神兽」，命中92%漏洞

颤抖吧，Bug！OpenAI放出GPT-5「夜行神兽」，命中92%漏洞

刚刚，OpenAI推出了使用GPT-5寻找和修复安全漏洞的智能体Aardvark。目前，Aardvark还处于beta测试阶段。 OpenAI称，Aardvark开创了「防御者优先」的新范式：作为自主安全研究智能体，随代码不断演化，为团队提供持续保护（continuous protection）。

10/31/2025 3:53:06 PM

OpenAI首个GPT-5找Bug智能体：全自动读代码找漏洞写修复

OpenAI首个GPT-5找Bug智能体：全自动读代码找漏洞写修复

AI Coding火了大半年，AI Debugging也来了！刚刚，OpenAI发布由GPT-5驱动的“白帽”Agent——Aardvark（土豚）。这只“AI安全研究员”能帮助开发者和安全团队，在大规模代码库中自动发现并修复安全漏洞。

10/31/2025 9:02:07 AM

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式单张4090跑到30fps，范浩强团队让VLA实时跑起来了一张合影就能泄露全家信息？央视紧急预警：“读心AI”正让社交晒图变成隐私炸弹 Sora、可灵、即梦哪家强？AI视频软件深度测评！可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool 阿里云通义模型首次大规模赋能双11，单日翻译调用量突破14亿次

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 AI新词 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 图像英伟达 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果 Claude 芯片腾讯 Stable Diffusion 蛋白质开发者 xAI 生成式神经网络机器学习 3D RAG 具身智能 AI视频人形机器人研究大语言模型百度生成 GPU Sora 工具华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成场景生成式AI 深度学习 DeepMind 架构 AI模型亚马逊特斯拉 Transformer 编程视觉 MCP 预测