理论
模态编码器 | CLIP改进之SigLIP,采用sigmoid损失的图文预训练
DeepMind对CLIP改进的一篇工作--SigLIP,发表在2023CVPR。 简单看下研究动机:传统的对比学习方法如CLIP等依赖于 softmax 归一化,这需要一个全局视角来计算成对相似度,从而限制了批处理大小的扩展能力,并且在小批处理大小下表现不佳。 因此本文提出了一个简单的成对 Sigmoid 损失函数用于语言-图像预训练(SigLIP)。
4/9/2025 2:10:00 AM
Goldma
AI时代下数字化转型最大陷阱!是没数据,还是没用对数据?
许多企业谈起数字化转型,第一反应就是"我们没有数据基础"。 真相是,企业不缺数据,缺的是对数据价值的挖掘。 企业只要存续经营,就在不断产生大量数据,这些未被充分利用的数据就像沉睡的金矿,等待被唤醒创造价值...数据早已存在,只是未被唤醒企业数据无处不在。
4/9/2025 1:20:00 AM
大数据AI智能圈
大模型+数据分析:下一代智能查询优化体系的先行探索
当你每天面对万亿级数据、日均百万次查询请求时,你会怎么做? 处理海量数据查询犹如在迷雾中寻路,方向稍有不慎就会迷失。 数据负载高到屏幕只显示超时,查询速度慢到让你有时间泡一杯咖啡再来检查结果。
4/9/2025 1:00:00 AM
大数据AI智能圈
ChatGPT的危险之处:你永远不应该告诉AI机器人的五件事
但这个征服世界的大型语言模型聊天机器人被描述为一个“隐私黑洞”,人们担心它处理用户数据的方式,这甚至导致它在意大利被短暂封禁。 它的创造者OpenAI毫不掩饰这样一个事实:任何输入的数据都可能不安全。 这些数据不仅可能被用于进一步训练其模型,从而可能暴露给其他用户,而且还可能被人工审核,以检查其是否符合使用规则。
4/9/2025 12:13:00 AM
Bernard Marr
20万+围观GPT-4o整出Gif!我们玩出新高度
编辑 | Sia这届网友真是把 AI 玩出花! 继谷歌 Gemini 2.0 Flash 去水印骚操作后,Reddit 社区的老哥们又用 GPT-4o 解锁动画制作新姿势——直接生成动画关键帧。 只需简单指令,模型直接吐出连贯动作序列帧,丝滑程度堪比动画师原画。
4/8/2025 9:21:00 PM
AI好好用
谷歌 Gemini AI 升级文件分析功能,将支持 3GP、AVI、MP4 等八种视频格式
4 月 8 日消息,科技媒体 Android Authority 今天(4 月 8 日)发布博文,通过分析 APK 文件,发现谷歌 Gemini 即将升级文件分析功能,新增支持 3GP、AVI、FLV 等 8 种视频格式。 Gemini 现有文件分析功能支持文档、代码、表格等类型,但暂不支持视频处理。 该媒体分析 Google App 16.13.38 测试版代码,发现 Gemini 该功能将兼容 3GP、AVI、FLV、MOV、MP4 等主流视频格式。
4/8/2025 6:43:44 PM
故渊
奥特曼采访回应“偷走”吉卜力!GPT4o大爆炸;套壳OpenAI也能成为大生意;今年AI可以帮编程提效10倍!
整理 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)刚刚,奥特曼又有了一个新采访! 在这场访谈中,OpenAI CEO 奥特曼接受了印度博主兼开发者 Varun Mayya 的专访,聊到了多个当前 AI 技术从业者最关心的话题:包括最近火爆出圈的 GPT-4o 图像生成能力、Prompt Engineer 是否真的值得存在、Agent 的落地路径等等,甚至还有他本人对 AI 带来失业焦虑的思考。 画个重点,本次采访亮点有: GPT-4o爆火,“现在生成的图像数量远远超过了我原本以为互联网有的需求。
4/8/2025 3:39:34 PM
伊风
用于科研的AI:Nature教你如何选择正确地选择工具
编辑丨toileter人工智能(AI)的到来是一场革命。 随着现在越来越多的 AI 投入使用,虽然许多教育工作者和学术机构最初对此持谨慎态度,但学术界似乎越来越愿意允许学生学生进行这种尝试。 Nature 期刊为此探讨了如今学者与学生们如何利用 AI 进行实验的简化。
4/8/2025 2:15:00 PM
ScienceAI
Llama 4在测试集上训练?内部员工、官方下场澄清,LeCun转发
Llama 4 这么大的节奏,Meta 终于绷不住了。 本周二凌晨,Meta Gen AI 团队负责人发表了一份澄清说明(针对外界质疑「在测试集上训练」等问题),大佬 Yann LeCun 也进行了转发。 很高兴能让大家用上 Llama 4,我们已经听说人们使用这些模型取得了很多出色的成果。
4/8/2025 1:12:49 PM
机器之心
Meta坐不住了!高管辟谣:Llama4没刷榜!训练没有使用测试集!模型稳定实现需要时间,bug正在修
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)Meta的辟谣来了! ——没刷榜、模型稳定部署需要时间。 昨日,Llama 4收到许多网友实测后的“差评”,加之自称内部员工的人在国内论坛上爆料Meta作弊,一时间流言四起。
4/8/2025 12:57:02 PM
伊风
首次引入强化学习!火山引擎Q-Insight让画质理解迈向深度思考
从 GPT-4o 吉卜力风、即梦的 3D 动画、再到苹果 Vision Pro,AI 视觉创作正迎来生产力大爆炸。 一个重要问题随之浮现:如何评估机器生成的画质符合人眼审美? 人眼能瞬间辨别图像优劣,但教会机器理解「好看」却充满挑战。
4/8/2025 9:50:00 AM
机器之心
2025 CSRankings排名出炉!上交大、清华北大、浙大霸榜全球AI TOP 10
就在刚刚,2025 CSRankings全球计算机科学排名发布! 地址:,CMU再次霸榜,UIUC曾连续多年稳坐全球第二,如今跌至第6。 中国高校/机构继续包揽多个席位,其中清华排名第2,上交大/浙大并列第3,北大第5。
4/8/2025 9:42:00 AM
新智元
奥特曼力挺年轻人「套壳」,25年程序员效率暴增10倍!GPT-4o狂造十亿图像
奥特曼在最新的访谈中回应了吉卜力争议,谈到了对AI带来的新职业及创业公司的看法。 新职业出现的时候,经常被嘲笑。 嘲笑别人是「套壳」是件容易的事。
4/8/2025 9:38:00 AM
新智元
数学大一统的惊人胜利!天才数学家用30年破解不可能,边看《星战》边写论文
一个与「数学大一统理论」相关的领域,一项长期以来被视作几乎不可能的数学证明,如今取得了突破。 在历经30年的努力后,数学家们证明了这个数学构想——几何Langlands Program。 著名数学家、Max Planck研究所的Peter Scholze(菲尔兹奖得主,他没有参与这项证明)兴奋地表示:看到它得到解决真是太好了。
4/8/2025 9:37:00 AM
新智元
奥特曼最新访谈认可“套壳”:多数改变世界的公司,最初都是这样的
奥特曼最新访谈回应一切! 在一档播客节目中,OpenAI CEO奥特曼分享了对4o吉卜力风突然走红以及大多数创业公司都是“套壳包装”的看法,并谈到了AI编程、AI智能体等前沿技术的发展趋势。 尤其是当中提到了一个“杰文斯悖论”的典型案例——当编程成本下降时,全球对软件的需求会呈指数级增长。
4/8/2025 9:27:00 AM
量子位
清华耶鲁推理模型新范式:动态推理实现高效测试时扩展,大大节省Token消耗
推理性能提升的同时,还大大减少Token消耗! 清华、耶鲁团队提出推理模型新范式:动态推理实现高效测试时扩展。 测试时扩展(test-time scaling)技术加速推动了大语言模型在复杂推理领域的突破。
4/8/2025 9:16:00 AM
量子位
首个个性化对齐大模型问世!可精准识别用户内在动机和偏好,还有百万用户画像开源数据集 | 蚂蚁&人大
如何让大模型更懂「人」? 虽然现有大模型经过了人类价值观对齐训练,但其对齐效果往往会让少数群体的声音被系统性淹没。 那随之而来的问题是,当大模型服务全球用户,标准化对齐范式是否正在制造新的数字鸿沟?
4/8/2025 9:12:00 AM
量子位
CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!
最近AI圈最火的模型非GPT-4o莫属,各种风格图片持续火爆全网。 如此强悍的图片生成能力,得益于GPT-4o本身是一个原生多模态模型。 从最新发布的LLM来看,多模态已经成为绝对的主流。
4/8/2025 9:10:00 AM
新智元
资讯热榜
阿里推出 AI 医学助手 App“氢离子”:收录千万级核心期刊文献,还可查疾病、找药品
MyShell ShellAgent 2.0发布:一句话创建App,零前端的AI革命来袭
因为不用AI写代码,我在终面挂了 | 一个程序员的奇葩面试经历
AI视频记忆革命来了!Memories.ai获800万美元融资,挑战千万小时视频分析极限
Lovart 实战深度测评!仅需4小时帮你完成一整套品牌全案设计!
Memories AI携全球首个人工智能视觉记忆模型亮相,获800万美元种子轮融资
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
刷新无监督异常检测上限!首提「匹配代价滤波for异常检测」范式 | ICML'25
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
具身智能
字节跳动
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用