理论
谢赛宁团队提出BLIP3-o:融合自回归与扩散模型的统一多模态架构,开创CLIP特征驱动的图像理解与生成新范式!
BLIP3-o 是一个统一的多模态模型,它将自回归模型的推理和指令遵循优势与扩散模型的生成能力相结合。 与之前扩散 VAE 特征或原始像素的研究不同,BLIP3-o 扩散了语义丰富的CLIP 图像特征,从而为图像理解和生成构建了强大而高效的架构。 此外还发布了包含 2000 万张带详细标题的图片(BLIP3o Pretrain Long Caption)和 400 万张带短标题的图片(BLIP3o Pretrain Short Caption)的数据集。
5/20/2025 9:08:59 AM
震撼全网,AlphaEvolve矩阵乘法突破被证明为真!开发者用代码证实
就在刚刚,有人用Claude写代码证实——谷歌DeepMind的AlphaEvolve求解矩阵乘法的突破,100%正确! 即使已经过去好几天,AI圈依然有许多人沉浸在这个AI的余震中。 在时隔半个世纪(56年)后,AlphaEvolve将4×4的复数矩阵计算次数,从1969年Strassen的49次减少到了48次。
5/20/2025 9:07:00 AM
英伟达新“桌面超算”800GB大内存,满血DeepSeek R1能装1个半
英伟达官宣新办公室落户中国台湾省台北市,但居然是从太空飞下来的吗? 当然,这只是黄仁勋在Computex大会上展示的CG特效,但背后还有这样一层意思:如此逼真的画面中,只有1/10的像素是显卡渲染的,剩下全部内容为AI预测。 当初是GeForce显卡让AI成为现实,现在AI反过来给GeForce显卡带来颠覆性变革。
5/20/2025 9:02:00 AM
一文揭秘专为 RAG 打造的高性能开源图向量数据库:HelixDB
在人工智能技术尤其是大语言模型(LLM)蓬勃发展的浪潮中,检索增强生成(Retrieval-Augmented Generation,简称 RAG)正迅速成为提升生成式 AI 系统内容准确性、实时性与上下文相关性的核心手段。 RAG 通过将外部知识检索与语言模型推理相结合,显著缓解了模型“幻觉”问题,使其在问答系统、智能助手、企业知识中台等应用中展现出广阔前景。 然而,随着业务需求的不断升级,传统 RAG 系统所依赖的扁平向量表示与单一类型数据库架构,已难以满足对复杂语义结构建模与海量非结构化数据高效检索的双重需求。
5/20/2025 8:50:00 AM
Luga Lee
深度解析大模型技术演进脉络:RAG、Agent与多模态的实战经验与未来图景
作者 | jaymie大模型作为产业变革的核心引擎。 通过RAG、Agent与多模态技术正在重塑AI与现实的交互边界。 三者协同演进,不仅攻克了数据时效性、专业适配等核心挑战,更推动行业从效率革新迈向业务重构。
5/20/2025 8:30:00 AM
腾讯技术工程
Transformer 模型结构详解及代码实现!
一、Transformer简要发展史以下是Transformer模型发展历史中的关键节点:Transformer架构于2017年6月推出。 原本研究的重点是翻译任务。 随后推出了几个有影响力的模型,包括:时间模型简要说明2017 年 6 月「Transformer」Google 首次提出基于 Attention 的模型,用于机器翻译任务2018 年 6 月「GPT」第一个使用 Transformer 解码器模块进行预训练的语言模型,适用于多种 NLP 任务2018 年 10 月「BERT」使用 Transformer 编码器模块,通过掩码语言建模生成更强大的句子表示2019 年 2 月「GPT-2」更大更强的 GPT 版本,由于潜在风险未立即发布,具备出色的文本生成能力2019 年 10 月「DistilBERT」BERT 的轻量化版本,在保留 97% 性能的同时,速度更快、内存占用更低2019 年 10 月「BART、T5」使用完整的 Encoder-Decoder 架构,在各种 NLP 任务中表现优异2020 年 5 月「GPT-3」超大规模语言模型,支持“零样本学习”,无需微调即可完成新任务这个列表并不全面,只是为了突出一些不同类型的 Transformer 模型。
5/20/2025 8:15:00 AM
郭小喵玩AI
新的自主式AI工具带来新的威胁:智能体泛滥
你可能已经拥有一个用于开发和管理智能体的平台,甚至可能有两个或更多,这种智能体的泛滥使得智能体能够在企业的更多领域中运作,但也带来了更高的复杂性、增加了安全顾虑,并可能损害投资回报率。 在过去的一年里,供应商们一直在急于将智能体产品添加到他们的产品组合中。 微软、AWS、谷歌、IBM、Salesforce、ServiceNow、Workday和SAP都已经涉足这一领域,而数据管理软件提供商Informatica本周也承诺将在其智能数据管理云中添加智能体,以自动化数据处理流程。
5/20/2025 7:00:00 AM
Anirban
理解 RAG 第九部分:针对 RAG 微调 LLM
在“理解 RAG”系列的前几篇文章中,我们重点探讨了检索增强生成的各个方面。 文章中,我们重点介绍了与大型语言模型 (LLM) 集成的检索器组件,该组件用于检索有意义且真实的上下文知识,从而提升 LLM 输入的质量,并最终提升其生成的输出响应。 具体来说,我们学习了如何管理传递给 LLM 的上下文长度、如何优化检索,以及如何利用向量数据库和索引策略来有效地检索知识。
5/20/2025 6:00:00 AM
晓晓
基于Bad Cases的Dify合同审查案例演示(工作流拆解)
4月底时,知识星球里有个关于在 RAG 流程中,如何实现基于 Bad Cases(负面案例)的合同审查和合同生成(基于合同模板)的提问,算是一个很有代表性的进阶 RAG 应用方向,这篇针对其中的合同审查场景来做些介绍和演示。 注:“整体文档理解”(Bad Cases 分析)和“结构化对象检索”(模板匹配)合同审查场景里,利用历史上的“坏案例”(Bad Cases,包含合同原文和审查结果)来辅助新合同的审查,而不仅仅依赖预设规则是个很实际的业务需求。 但标准 RAG 主要召回与问题语义相似的片段,确实很难让 LLM 理解一个 Bad Cases 的整体情况和参考价值。
5/20/2025 4:00:00 AM
有目的地设计人工智能:意图矩阵
在竞相添加“智能”功能的过程中,许多产品陷入了一个陷阱:推出人工智能是因为他们可以,而不是因为他们应该。 当团队争相实现自动化时,他们常常不会停下来思考:人工智能在这里扮演什么角色? 它应该接管一切,还是协助用户?
5/20/2025 3:00:00 AM
晓晓
从代码助手到工程伙伴:Windsurf 的 SWE-1 开启 AI 辅助开发新范式
译者 | 刘汪洋审校 | 重楼如今,在许多 Vibe Coding 平台通常会借助现有的大型语言模型 (LLMs) 来辅助编写代码。 不过,写代码仅仅是开发人员日常工作的一小部分。 要想构建一个完善的企业级生产平台,还得用上各种工具来审查代码、提交代码,并进行长期的维护。
5/20/2025 12:08:00 AM
刘汪洋
为什么 API 必不可少,而 MCP 暂时是可选的
作者 | Gil Feig编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)AI 助手在产品体验中的重要性日益凸显,而一种新的标准也应运而生,它助力 AI 助手的构建:模型上下文协议 (MCP)。 随着 Anthropic、OpenAI 和 Gemini 等主流大型语言模型 (LLM) 提供商的采用,该协议迅速在更广泛的软件生态系统中获得了广泛关注,各大公司纷纷构建自己的 MCP 服务器。 作为参与构建 MCP 服务器和 API 集成的人员,我亲眼目睹了这种快速采用导致的混乱。
5/19/2025 7:01:14 PM
云昭
新技术栈来了!四剑客联手打造下一代互联网!智能体互联时代将至!A2A、MCP、Kafka 与 Flink如何强强联手?
编译 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)智能体(Agent)是个不可逆的趋势。 但今天的AI 智能体似乎还处于一个“前标准化”阶段。 这些雨后春笋般的智能体越来越多,性能强大、增长迅速,但彼此之间却无法协作——有的智能体用来分析数据,有的用来编写代码,有的用来自动化客户关系管理(CRM)工作流,但它们彼此孤立,互不往来。
5/19/2025 6:57:05 PM
云昭
北邮港大联手!LightRAG:图结构赋能的高效检索增强生成新范式
现有 RAG 系统在处理复杂查询时力不从心。 一方面,它们依赖扁平的数据表示,无法有效捕捉实体间的复杂关系;另一方面,缺乏上下文感知能力,导致生成的回答碎片化,难以形成连贯的逻辑。 例如,当用户询问 “电动汽车的兴起如何影响城市空气质量和公共交通基础设施?
5/19/2025 6:03:15 PM
Goldma
调查显示67%的工作使用AI,但领导者是否了解其局限性?
在一份针对1000名知识型员工的调查中,67%的受访者表示其所在公司使用AI,其中56%的公司鼓励员工使用AI。 该调查由Owl Labs发起,他们发现Z世代员工更有可能表示自己“高度依赖”AI,其中70%的最年轻一代员工在工作中依赖这项技术完成多项任务。 这与OpenAI CEO萨姆·奥特曼(Sam Altman)的观察一致,他最近表示,Z世代员工将ChatGPT视为“人生顾问”。
5/19/2025 3:06:44 PM
Chris
AI生成视频总不符合物理规律?匹兹堡大学团队新作PhyT2V:不重训练模型也能让物理真实度狂飙2.3倍!
本文由匹兹堡大学智能系统实验室(Intelligent Systems Laboratory)的研究团队完成。 第一作者为匹兹堡大学的一年级博士生薛琪耀。 当前文本生成视频(T2V)技术正在从注重视觉质量与模型规模的扩展阶段,迈向更关注物理一致性与现实合理性的推理驱动阶段。
5/19/2025 3:00:38 PM
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
随着大模型的参数规模不断扩大,分布式训练已成为人工智能发展的中心技术路径。 如此一来,高带宽域的设计对提升大模型训练效率至关重要。 然而,现有的HBD架构在可扩展性、成本和容错能力等方面存在根本性限制:以交换机为中心的HBD(如NVIDIA NVL-72)成本高昂、不易扩展规模;以GPU为中心的HBD(如 Google TPUv3和Tesla Dojo)存在严重的故障传播问题;TPUv4等交换机-GPU混合HBD采用折中方案,但在成本和容错方面仍然不甚理想。
5/19/2025 2:57:44 PM
参数量暴降,精度反升!哈工大宾大联手打造点云分析新SOTA
新架构选择用KAN做3D感知,点云分析有了新SOTA! 来自哈尔滨工业大学(深圳)和宾夕法尼亚大学的联合团队最近推出了一种基于Kolmogorov-Arnold Networks(KANs)的3D感知解决方案——PointKAN,在处理点云数据的下游任务上展现出巨大的潜力。 △PointKAN与同类产品的比较替代传统的MLP方案,PointKAN具有更强的学习复杂几何特征的能力。
5/19/2025 2:56:45 PM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
AI新词
图像
Gemini
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
工具
计算
Sora
GPU
华为
大语言模型
RAG
具身智能
AI设计
字节跳动
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
编程
神器推荐
DeepMind
亚马逊
特斯拉
AI模型