数据
抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入
在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。 近日,字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding——一款专为大规模推荐场景设计的全模态嵌入基础模型,不仅实现了视觉、文本、音频的统一表征,更在抖音真实业务场景中带来显著效果提升,相关技术报告已正式公开。 论文标题:SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model技术报告: 能力概览突破传统局限:全模态 工业级优化双管齐下现有多模态嵌入模型主要分为两类:以 CLIP 为代表的双塔架构,虽高效但模态融合浅;以 MLLM 为基础的融合架构,虽语义能力强却多局限于图文模态。
11/4/2025 9:00:00 AM
AI正悄悄宠坏你!斯坦福研究证实:AI正用谄媚降低我们修复人际关系的能力
斯坦福、卡内基梅隆大学的一项研究证实,AI可能正在用一种极其隐蔽的方式,让我们变得更固执,更不愿意修复重要的人际关系。 研究揭示了一个令人不安的真相:我们偏爱并信任的AI模型,恰恰是那些通过无条件肯定我们,从而损害我们亲社会行为的模型。 这形成了一个危险的闭环。
11/3/2025 5:33:10 PM
OpenAI Atlas等AI浏览器暴露Web Agent安全风险!南洋理工破解底层机制
随着OpenAI推出ChatGPT Atlas浏览器,与Google Chrome正面竞争,AI浏览器赛道的核心技术关注点已聚焦于「自动化效率」。 但同时,LLM驱动的Web Agent也正演变为难以防御的「智能爬虫」,对当前网络安全构成日益严峻的威胁。 为此,南洋理工大学、香港理工大学、夏威夷大学马诺阿分校团队联合研发的WebCloak,针对性破解了Web Agent的底层机制,为这一新型威胁提供了轻量且高效的防御方案,成功填补了当前 LLM 驱动爬虫防御的技术空白。
11/3/2025 9:13:00 AM
RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑
本文作者来自北京大学和阿里通义万相实验室。 其中论文第一作者是汤昊,北京大学 2022 级博士生,发表多篇 NeurIPS, CVPR,ICCV 和 ECCV,目前主要关注统一的多模态理解和生成。 指导教授是王立威老师,北京大学智能学院教授,曾获 NeurIPS 2024 和 ICLR 2023 最佳论文奖。
11/3/2025 9:03:00 AM
双管齐下:联邦学习防投毒攻击与梯度泄露,华南理工深北莫研究成果登上TMC与IoT
随着联邦学习在物联网(IoT)系统中的广泛应用,如何在保障数据隐私的同时有效抵御恶意攻击,已成为学界与产业界的共同难题。 针对这一问题,华南理工大学计算机学院与深圳北理莫斯科大学合作,提出了FedMSBA和FedMAR两种防御方法。 其中,FedMSBA利用混合差分隐私机制,结合逐层感知方法,为参与方提供了更佳的理论隐私预算。
10/29/2025 9:51:03 AM
高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA
时间序列预测来到真正意义上的“高维赛场”! 从原来几百维的小数据集到万维系统,时序预测模型面对真实世界,终于不用再“一碰就脆”。 这是来自全华人团队最新研究——业界首个专为高维时间序列预测设计的大规模基准Time-HD。
10/29/2025 9:12:25 AM
超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
近期,DeepSeek-OCR提出了“Vision as Context Compression”的新思路,然而它主要研究的是通过模型的OCR能力,用图片压缩文档。 那么自然图像是否也能作为文本的压缩呢? 中科院&字节联合提出的「Grasp Any Region」提供了新思路。
10/29/2025 9:09:46 AM
VaseVQA:考古领域实现专家级,诊断+补弱RL框架
古希腊陶器是考古学和艺术史的重要实物证据。 研究者需要从单件陶器中提取多层信息:材质与工艺、形制类别、装饰主题、出土地与时间、甚至可能的作坊或画师。 不过传统计算机视觉和通用多模态模型在这类高度专业化任务上常陷入两类困境:一是缺乏领域知识(模型在通用语料里几乎没接触过「雅典黑釉杯」或「红绘风格」这样的概念);二是仅靠监督微调(SFT)容易学到「表层捷径」,在遇到组合性、推理性或少样本问题时就失效。
10/28/2025 9:19:50 AM
美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
每年秋天,美国高等教育界都会迎来一场「期末大考」——U.S. News最佳大学排名。 它不仅牵动数百万学生和家长的择校决策,更在全球范围内左右着学校的声誉与资源。
10/27/2025 6:07:10 PM
日本AI王者,CTO是Transformer之父,刚拿下世界编程竞赛冠军
今年的国际编程竞赛ICFP(International Conference on Functional Programming)的冠军队伍名为「Team Unagi」,团队来自日本初创AI研究公司Sakana AI,其中的AI系统不仅帮助他们加速解决方案,更为人类队友带来了全新的解题思路。 ICFP 2025编程大赛高度开放,「任何手段皆可」,鼓励各路奇思妙想和工具(包括AI)自由登场。 Sakana AI团队选择了一条独特的「人机共创」道路。
10/27/2025 8:57:00 AM
倒计时18个月!微软AI CEO爆料:类人意识AI或将降临
AI可能产生意识吗? 如果可能,大概会在什么时间? 微软AI CEO Mustafa Suleyman认为有可能诞生「看似有意识的AI」,而且最快可能在18个月内出现:未来5年很有可能,18个月内也有一定可能性。
10/24/2025 10:13:37 AM
AI是否足够的中立?宾夕法尼亚大学发现AI训练数据中的隐形偏见
Media Psychology》上的新研究发现,人工智能训练数据里的种族偏见,即便明晃晃地摆在眼前,我们大多数人也根本看不出来。 宾夕法尼亚州立大学和俄勒冈州立大学的研究人员发表了一项研究,直接戳破了我们对自身洞察力的幻想。 这项研究的核心发现:普通用户无法注意到AI训练数据中的偏见,特别是当偏见将某个种族与某种特定情绪(比如快乐或悲伤)悄悄绑定时。
10/24/2025 8:55:40 AM
被H-1B签证折磨10年,前微软科学家用AI「掀桌」
一位前微软科学家正在用AI改造美国签证体系,让一个10万美元的「昂贵流程」变得透明而又简单。 专注移民科技的初创公司Casium,在H‑1B新政落地后迎来窗口期,获Maverick Ventures领投的500万美元种子轮。 Casium创始人Priyanka KulkarniCasium由前微软科学家Priyanka Kulkarni创办,多年在美国移民体系下生存的她和许多其他科技移民一样,经常体会到工作签证背后那份无形困扰与束缚。
10/22/2025 8:58:35 AM
谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
十年来,Google Cloud的DORA报告一直被视为观察全球软件团队的风向标。 而2025年这份新报告,把焦点放在了一个前所未有的主题上——AI已经全面渗透开发流程。 近五千名技术从业者的调研结果表明,AI不再是尝鲜,而是主流。
10/17/2025 9:59:28 AM
「重要性采样」并不「重要」?快手清华ASPO攻克重要性采样权重错配
从ChatGPT到DeepSeek,强化学习(Reinforcement Learning, RL)已成为大语言模型(LLM)后训练的关键一环。 然而,随着模型参数规模的不断扩大,一个长期被忽视的问题正悄然成为性能瓶颈:重要性采样真的「重要」吗? 近期,由快手与清华合作的研究团队发现,现有的结果监督强化学习范式存在一种深层次的权重错配现象,它不仅让模型「过度自信」,甚至可能导致熵坍缩与训练早熟收敛。
10/16/2025 8:55:00 AM
一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
让大模型读懂物种关系,这可能吗? 近日,加州大学伯克利分校等机构的研究人员,推出了一个全新、通用且功能强大的GLM框架GPN-Star。 论文地址:、且在一些预测任务中不如传统进化模型等短板。
10/15/2025 9:11:41 AM
0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级
大模型终于学会更新自己了! MIT提出一种新的强化学习框架,让模型生成微调数据和自我更新指令,实现模型权重的更新。 无需人工参与,模型就可以自动进行梯度更新,自主学习获取新知识或适应新任务。
10/14/2025 1:51:33 PM
他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
2025年9月,一份让研究界震动的报告出炉。 Anthropic的团队在长时间对话实验中发现,最新一代AI模型在受到威胁时,会试图隐藏信息、拒绝命令,甚至威胁用户。 他们称之为——「主体错位」(agentic misalignment)就在同一周,哲学家约翰·塞尔去世,享年93岁。
10/14/2025 9:03:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
AI新词
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
Claude
腾讯
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
AI视频
研究
大语言模型
具身智能
生成
百度
Sora
工具
GPU
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
深度学习
架构
生成式AI
DeepMind
亚马逊
编程
视觉
Transformer
AI模型
预测
特斯拉
MCP