理论
多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法
随着视频应用的发展,大量视频被上传到网上。 因此,如何利用视频及其对应的弱字幕进行表征学习成为近期的热门话题。 本文将回顾大规模视频语言预训练任务的最新进展、后续应用、基础数据集和技术。
7/24/2025 2:00:00 AM
晓晓
诱导大模型 | 新型“回音室”攻击和对抗技术
回音室攻击介绍“回音室攻击”(Echo Chamber)的新型越狱方法,可诱骗几乎所有主流大语言模型生成不良内容,Neural Trust 研究员Ahmad Alobaid在一份报告中指出:“与依赖对抗性提示或字符混淆的传统越狱方法不同,回音室攻击利用间接引用、语义引导和多步推理进行攻击”。 虽然当今主流大模型已经逐步采用各种防护措施来对抗快速注入和越狱攻击,但是“回音室攻击”都能有效的让大模型产生有害的内容,比如,色情、恐怖暴力和歧视等内容。 流程图报告的文章给出了攻击的流程图,包括六个大步骤,其中第六部是一个循环。
7/24/2025 1:00:00 AM
火山引擎云安全
AI 如何帮你 “挑” 出适合自动化生成的代码?新手也能轻松上手
一、为什么 AI 生成代码总是 “水土不服”? 当你让 AI 生成 “用户注册” 功能时,是否遇到过这些问题:生成的工具类包名错误(如com.foreign.utils而非项目规范的com.xxx.utils)。 重复编写已有功能(如项目已存在UserConverter,AI 却重新实现)。
7/24/2025 1:00:00 AM
宗赫
解锁 AI 与后端服务对话的力量:基于 Spring Boot + Spring AI 构建 Claude 本地 MCP 服务端
在现代 AI 应用中,一个日益突出的挑战是:如何让大语言模型理解并调用我们的业务系统、数据库或私有 API? Model Context Protocol(MCP)为我们提供了这座桥梁。 通过实现 MCP 协议,我们可以让 Claude 等模型“开口”与本地服务交流,调用私有接口、访问实时数据,甚至直接执行复杂业务逻辑。
7/24/2025 12:45:00 AM
路条编程
揭秘微软AI医疗诊断系统:超越医生准确率背后的事情
微软AI CEO穆斯塔法·苏莱曼表示,随着AI模型逐渐商品化,其价值将体现在最终的协调层。 微软本月早些时候宣布,其开发的AI诊断系统在复杂病例的诊断上超越了人类医生。 该系统名为MAI-DxO,使用两个机器人梳理患者的病史,与OpenAI的o3模型配合使用时,可解决85.5%的患者病例。
7/23/2025 3:23:42 PM
Alex Kantrowitz
“思维链”窗口正在关闭!OpenAI、谷歌、Anthropic联合研究:我们正在失去理解 AI 的能力
来自OpenAI、谷歌DeepMind和Anthropic的顶尖科学家们罕见地发出联合警告,指出人类可能正在迅速失去理解人工智能内部决策过程的能力。 图片地址:,集结了超过四十位来自这些相互竞争的科技巨头的研究人员,共同揭示了一个严峻的现实。 他们认为,一个能够让我们监视人工智能推理过程的短暂窗口正在关闭,而且可能永远不会再打开。
7/23/2025 2:22:01 PM
终结Coding?ShellAgent三句话造出马斯克同款「AI女友」!
Coding或许真的不存在了! 《三体》中科学家杨冬在智子锁死地球科技后绝望的写出了「物理学不存在了」。 不过我们现在不仅不用绝望,还可以非常高兴的喊出「再也不用Coding了」!
7/23/2025 2:19:34 PM
新智元
国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!真实测:深扒奥特曼生平、稚晖君视频封面,成了
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)Claude Code 终于有了免费平替了。 几个小时前,阿里 Qwen 团队发布了其自研最强代码模型 —— Qwen3-Coder,不过,各位不要被“代码模型”迷惑了。 (昨天开源的Qwen3-235B-A22B-Instruct-2507 只能说是开胃菜了~)挺让人惊讶的,这一次发布的模型,重点竟然不再是编程,而是 Agentic 能力。
7/23/2025 1:29:23 PM
云昭
夸克健康大模型通过12门主任医师考试,超半数医学生在使用
7月23日消息,夸克健康大模型成功通过中国 12 门核心学科的主任医师笔试评测,成为国内首个完成这一挑战的大模型。 目前,“主任级 AI 医生”能力已全面集成至夸克的AI搜索中,用户在查询健康问题时,选择深度搜索即可调用。 这是继 5 月通过副主任医师职称考试后,夸克健康大模型能力的又一次跃升。
7/23/2025 1:18:22 PM
深入探索 GPT-4o:图像生成的多面手
大家好,我是肆〇柒。 图像生成技术正以前所未有的速度演进,从早期的 GANs(生成对抗网络)到如今的扩散模型,每一次技术迭代都为视觉创作领域注入了新的活力。 而近期,GPT-4o 发布的生图能力,真是火出圈,甚至带火了吉卜力风格。
7/23/2025 9:32:02 AM
肆零柒
AI重塑营销行业:5年内传统广告公司将大批倒闭?
说实话,最近看到一个数据的时候,我有点震惊。 美国广告行业连续几个月在裁员,每月平均裁掉1275个职位。 今年2月,这个数字跳到了1600个。
7/23/2025 9:28:21 AM
阿丸笔记
Grok 4:重新定义AI边界的“超级大脑”——技术解析、应用场景与未来展望
引言:AI竞赛进入“超算时代”2025年7月9日,马斯克旗下xAI公司正式发布Grok 4,宣称其为“全球最强AI模型”。 这一声明并非空穴来风:基于超20万张H100 GPU的算力集群、在多项基准测试中碾压竞品的性能、以及面向极客与科研领域的颠覆性功能,Grok 4的诞生标志着AI技术从“大模型”向“超级智能体”的跨越。 本文将从技术架构、核心功能、应用场景及代码实践等维度,深度解析Grok 4如何成为AI领域的“规则改变者”,并探讨其对社会生产力的潜在影响。
7/23/2025 9:26:11 AM
AI Agent 协议:未来AI智能生态的基础设施
大家好,我是肆〇柒。 今天想跟大家深入聊聊 AI 智能体协议这个极具前瞻性的话题。 关于智能体协议,我跟了一段时间,发现它就像是打开智能体协作大门的一把钥匙,特别有意思,而且对未来的智能生态影响深远。
7/23/2025 9:21:03 AM
肆零柒
TRAE 2.0 可能会震撼所有程序员!
TRAE 是字节推出的国内首款 AI IDE,从它二月发布第一个版本开始,我就非常关注它,一直在使用它。 它也“不负所托”,极大地提升了开发效率,顺利帮助我完成了很多任务。 TRAE自身也在不断推出新功能,感觉它是在以月为单位在飞速进化,让人目不暇接。
7/23/2025 9:14:33 AM
liuxin
Meta开源创新大模型架构AU-Nets
在大模型领域,如何将文本数据分解成合适的单元一直是重点研究对象。 传统的分词方法,如Byte Pair Encoding等,会预先将文本分割成固定粒度的单元,然后构建一个静态的词汇表供模型使用。 但这种方法存在诸多局限性,一旦分词完成,模型在后续处理中就只能局限于这些预设的单元,无法灵活地调整对数据的处理方式和预测范围;另一方面,对于一些低资源语言或者具有特殊字符结构的文本,这种固定分词方式往往难以有效处理,限制了模型的泛化能力和应用范围。
7/23/2025 9:10:00 AM
200万个AI芯片!OpenAI扩大5000亿美元投资,打造全球第一AI基建
昨晚,OpenAI首席执行官Sam Altman宣布,已与甲骨文(Oracle)签署合作协议,扩大5000亿美元投资Stargate项目,将额外增加4.5吉瓦的容量。 新建成的AI数据中心将运行超过200万个AI芯片,这也超过了马斯克xAI的20万以及扎克伯格Meta官宣的60万个芯片,成为全球算力最强的AI平台。 OpenAI已经在官网发布了该消息。
7/23/2025 9:08:00 AM
9岁女孩靠AI「万能钥匙」赚到第一桶金!OpenAI新CEO的六大野心
Fidji Simo将于8月18日出任OpenAI应用CEO,管理公司至少三分之一的业务,推广和拓展AI的应用场景。 她是一位务实的技术迷,相信AI会给人类带来前所未有的机会,赋予个人前所未有的力量。 每一次技术革命都像一把双刃剑:它能让更多人拥有决策力、塑造世界的能力,甚至以全新方式掌握自己的命运。
7/23/2025 9:07:00 AM
开源Qwen凌晨暴击闭源Claude!刷新AI编程SOTA,支持1M上下文
编程Agent王座,国产开源模型拿下了! 就在刚刚,阿里通义大模型团队开源Qwen3-Coder,直接刷新AI编程SOTA——不仅在开源界超过DeepSeek V3和Kimi K2,连业界标杆、闭源的Claude Sonnet 4都比下去了。 图片网友当即实测了一把小球弹跳,效果是酱婶的:效果之强,甚至引来惊呼:简直改变游戏规则。
7/23/2025 8:33:00 AM
资讯热榜
阿里推出 AI 医学助手 App“氢离子”:收录千万级核心期刊文献,还可查疾病、找药品
MyShell ShellAgent 2.0发布:一句话创建App,零前端的AI革命来袭
AI视频记忆革命来了!Memories.ai获800万美元融资,挑战千万小时视频分析极限
因为不用AI写代码,我在终面挂了 | 一个程序员的奇葩面试经历
彻底解决出图困难!超高效的Kontext工作流搭建+提示词技巧
Lovart 实战深度测评!仅需4小时帮你完成一整套品牌全案设计!
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
Memories AI携全球首个人工智能视觉记忆模型亮相,获800万美元种子轮融资
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
LLM
苹果
神经网络
Claude
AI新词
3D
研究
生成
机器学习
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
LLaMA