AI在线 AI在线

理论

模态编码器 | CLIP改进之SigLIP,采用sigmoid损失的图文预训练

DeepMind对CLIP改进的一篇工作--SigLIP,发表在2023CVPR。 简单看下研究动机:传统的对比学习方法如CLIP等依赖于 softmax 归一化,这需要一个全局视角来计算成对相似度,从而限制了批处理大小的扩展能力,并且在小批处理大小下表现不佳。 因此本文提出了一个简单的成对 Sigmoid 损失函数用于语言-图像预训练(SigLIP)。
4/9/2025 2:10:00 AM
Goldma

AI时代下数字化转型最大陷阱!是没数据,还是没用对数据?

许多企业谈起数字化转型,第一反应就是"我们没有数据基础"。  真相是,企业不缺数据,缺的是对数据价值的挖掘。 企业只要存续经营,就在不断产生大量数据,这些未被充分利用的数据就像沉睡的金矿,等待被唤醒创造价值...数据早已存在,只是未被唤醒企业数据无处不在。
4/9/2025 1:20:00 AM
大数据AI智能圈

大模型+数据分析:下一代智能查询优化体系的先行探索

当你每天面对万亿级数据、日均百万次查询请求时,你会怎么做?  处理海量数据查询犹如在迷雾中寻路,方向稍有不慎就会迷失。 数据负载高到屏幕只显示超时,查询速度慢到让你有时间泡一杯咖啡再来检查结果。
4/9/2025 1:00:00 AM
大数据AI智能圈

ChatGPT的危险之处:你永远不应该告诉AI机器人的五件事

但这个征服世界的大型语言模型聊天机器人被描述为一个“隐私黑洞”,人们担心它处理用户数据的方式,这甚至导致它在意大利被短暂封禁。 它的创造者OpenAI毫不掩饰这样一个事实:任何输入的数据都可能不安全。 这些数据不仅可能被用于进一步训练其模型,从而可能暴露给其他用户,而且还可能被人工审核,以检查其是否符合使用规则。
4/9/2025 12:13:00 AM
Bernard Marr

20万+围观GPT-4o整出Gif!我们玩出新高度

编辑 | Sia这届网友真是把 AI 玩出花! 继谷歌 Gemini 2.0 Flash 去水印骚操作后,Reddit 社区的老哥们又用 GPT-4o 解锁动画制作新姿势——直接生成动画关键帧。 只需简单指令,模型直接吐出连贯动作序列帧,丝滑程度堪比动画师原画。
4/8/2025 9:21:00 PM
AI好好用

谷歌 Gemini AI 升级文件分析功能,将支持 3GP、AVI、MP4 等八种视频格式

4 月 8 日消息,科技媒体 Android Authority 今天(4 月 8 日)发布博文,通过分析 APK 文件,发现谷歌 Gemini 即将升级文件分析功能,新增支持 3GP、AVI、FLV 等 8 种视频格式。 Gemini 现有文件分析功能支持文档、代码、表格等类型,但暂不支持视频处理。 该媒体分析 Google App 16.13.38 测试版代码,发现 Gemini 该功能将兼容 3GP、AVI、FLV、MOV、MP4 等主流视频格式。
4/8/2025 6:43:44 PM
故渊

奥特曼采访回应“偷走”吉卜力!GPT4o大爆炸;套壳OpenAI也能成为大生意;今年AI可以帮编程提效10倍!

整理 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)刚刚,奥特曼又有了一个新采访! 在这场访谈中,OpenAI CEO 奥特曼接受了印度博主兼开发者 Varun Mayya 的专访,聊到了多个当前 AI 技术从业者最关心的话题:包括最近火爆出圈的 GPT-4o 图像生成能力、Prompt Engineer 是否真的值得存在、Agent 的落地路径等等,甚至还有他本人对 AI 带来失业焦虑的思考。 画个重点,本次采访亮点有: GPT-4o爆火,“现在生成的图像数量远远超过了我原本以为互联网有的需求。
4/8/2025 3:39:34 PM
伊风

用于科研的AI:Nature教你如何选择正确地选择工具

编辑丨toileter人工智能(AI)的到来是一场革命。 随着现在越来越多的 AI 投入使用,虽然许多教育工作者和学术机构最初对此持谨慎态度,但学术界似乎越来越愿意允许学生学生进行这种尝试。 Nature 期刊为此探讨了如今学者与学生们如何利用 AI 进行实验的简化。
4/8/2025 2:15:00 PM
ScienceAI

Llama 4在测试集上训练?内部员工、官方下场澄清,LeCun转发

Llama 4 这么大的节奏,Meta 终于绷不住了。 本周二凌晨,Meta Gen AI 团队负责人发表了一份澄清说明(针对外界质疑「在测试集上训练」等问题),大佬 Yann LeCun 也进行了转发。 很高兴能让大家用上 Llama 4,我们已经听说人们使用这些模型取得了很多出色的成果。
4/8/2025 1:12:49 PM
机器之心

Meta坐不住了!高管辟谣:Llama4没刷榜!训练没有使用测试集!模型稳定实现需要时间,bug正在修

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)Meta的辟谣来了! ——没刷榜、模型稳定部署需要时间。 昨日,Llama 4收到许多网友实测后的“差评”,加之自称内部员工的人在国内论坛上爆料Meta作弊,一时间流言四起。
4/8/2025 12:57:02 PM
伊风

首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考

从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro,AI 视觉创作正迎来生产力大爆炸。 一个重要问题随之浮现:如何评估机器生成的画质符合人眼审美? 人眼能瞬间辨别图像优劣,但教会机器理解「好看」却充满挑战。
4/8/2025 9:50:00 AM
机器之心

2025 CSRankings排名出炉!上交大、清华北大、浙大霸榜全球AI TOP 10

就在刚刚,2025 CSRankings全球计算机科学排名发布! 地址:,CMU再次霸榜,UIUC曾连续多年稳坐全球第二,如今跌至第6。 中国高校/机构继续包揽多个席位,其中清华排名第2,上交大/浙大并列第3,北大第5。
4/8/2025 9:42:00 AM
新智元

奥特曼力挺年轻人「套壳」,25年程序员效率暴增10倍!GPT-4o狂造十亿图像

奥特曼在最新的访谈中回应了吉卜力争议,谈到了对AI带来的新职业及创业公司的看法。 新职业出现的时候,经常被嘲笑。 嘲笑别人是「套壳」是件容易的事。
4/8/2025 9:38:00 AM
新智元

数学大一统的惊人胜利!天才数学家用30年破解不可能,边看《星战》边写论文

一个与「数学大一统理论」相关的领域,一项长期以来被视作几乎不可能的数学证明,如今取得了突破。 在历经30年的努力后,数学家们证明了这个数学构想——几何Langlands Program。 著名数学家、Max Planck研究所的Peter Scholze(菲尔兹奖得主,他没有参与这项证明)兴奋地表示:看到它得到解决真是太好了。
4/8/2025 9:37:00 AM
新智元

奥特曼最新访谈认可“套壳”:多数改变世界的公司,最初都是这样的

奥特曼最新访谈回应一切! 在一档播客节目中,OpenAI CEO奥特曼分享了对4o吉卜力风突然走红以及大多数创业公司都是“套壳包装”的看法,并谈到了AI编程、AI智能体等前沿技术的发展趋势。 尤其是当中提到了一个“杰文斯悖论”的典型案例——当编程成本下降时,全球对软件的需求会呈指数级增长。
4/8/2025 9:27:00 AM
量子位

清华耶鲁推理模型新范式:动态推理实现高效测试时扩展,大大节省Token消耗

推理性能提升的同时,还大大减少Token消耗! 清华、耶鲁团队提出推理模型新范式:动态推理实现高效测试时扩展。 测试时扩展(test-time scaling)技术加速推动了大语言模型在复杂推理领域的突破。
4/8/2025 9:16:00 AM
量子位

首个个性化对齐大模型问世!可精准识别用户内在动机和偏好,还有百万用户画像开源数据集 | 蚂蚁&人大

如何让大模型更懂「人」? 虽然现有大模型经过了人类价值观对齐训练,但其对齐效果往往会让少数群体的声音被系统性淹没。 那随之而来的问题是,当大模型服务全球用户,标准化对齐范式是否正在制造新的数字鸿沟?
4/8/2025 9:12:00 AM
量子位

CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!

最近AI圈最火的模型非GPT-4o莫属,各种风格图片持续火爆全网。 如此强悍的图片生成能力,得益于GPT-4o本身是一个原生多模态模型。 从最新发布的LLM来看,多模态已经成为绝对的主流。
4/8/2025 9:10:00 AM
新智元