理论
多模态LLM+RAG:突破生成瓶颈的下一代AI架构革命
译者 | 朱先忠审校 | 重楼通过整合文本、图像、音频等数据,多模态大型语言模型(MLLM)开始突破传统RAG的文本局限,赋予AI感知能力。 其核心架构采用CLIP、Whisper等编码器实现跨模态语义统一,通过投影层对齐多模态信息。 不过,多模态大型语言模型的评估需要综合检索质量、生成忠实度及跨模态一致性等一系列指标实现。
6/9/2025 8:42:23 AM
朱先忠
生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架
图像生成、视频创作、照片精修需要找不同的模型完成也太太太太太麻烦了。 有没有这样一个“AI创作大师”,你只需要用一句话描述脑海中的灵感,它就能自动为你搭建流程、选择工具、反复修改,最终交付高质量的视觉作品呢? 这一切,现在通过一个由港科大(广州)和字节联合出品的全新的开源框架——ComfyMind实现了。
6/9/2025 8:40:00 AM
图灵奖得主、AI教父Bengio:我改变了科研方向,哪怕与此前信念背离,也要尽己所能降低AI失控的灾难风险;AGI最快五年降临
编辑 | 云昭6月6日,年逾花甲的三大“AI教父”之一的Yoshua Bengio(小编心中的科研偶像之一),如约出现在2025智源大会上的现场荧幕中。 大师眼中的GPT究竟是什么样子? 我们又该打造怎样的AI?
6/9/2025 8:39:10 AM
云昭
八个数据集全面胜出!思维链推理刷新图学习表现上限
思维链提示学习来了! 由于图数据拥有复杂的非线性结构和缺少文本信息,语言模型中的思维链(Chain-of-Thought,CoT)提示学习方法难以简单直接地应用于图数据。 基于此,来自新加坡管理大学和中国科学技术大学的研究者们提出了GCoT——首个应用于无文本图数据的类思维链提示学习框架。
6/9/2025 8:37:00 AM
你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%
ChatGPT将大模型技术推动到「对话」场景,直接引发了AI技术的爆炸式增长。 用户可以先提出一个粗糙的、不明确的问题,再根据模型的回答逐步完善指令、补充细节,多轮对话也催生出「跟AI打电话」等有趣的应用设计。 不过,现有的大模型性能评估基准仍然是基于单轮对话机制,输入的指令也更长,信息更完善,其在真实场景中多轮对话的性能仍然没有得到很好地评估。
6/9/2025 8:30:00 AM
CS专业爆冷,失业率飙至全美第七!毕业生狂卷4年,投1000份简历换0 offer
谁能想到,曾经最受欢迎的大学专业,如今却拥有最高的失业率? 曾经红极一时的CS,时常被评为最受大学生和应届毕业生欢迎的专业。 但是如今,它却成了所有研究领域中失业率最高的专业之一。
6/9/2025 8:28:00 AM
OpenAI 全新 Codex AI 代理或将终结传统 IDE 时代
OpenAI 推出的最新 Codex AI 代理堪称革命性突破。 它与目前市面上的 Windsurf、Cursor 等智能代理工具完全不同,属于全新层次。 只需看它如何自主修复项目中的多个 BUG——没有任何人工干预,轻松解决了37个问题。
6/9/2025 8:11:34 AM
前端小智
人工智能和知识图谱七:知识图谱在人工智能系统中的优势
知识图谱融入 AI 解决方案后,将带来诸多优势。 这些优势涵盖互操作性、查询功能等技术改进以及可解释性、可信度、减少开发工作量等更高层次的关注点。 本文概述了知识图谱的主要优势,以及它如何补充机器学习模型,助力打造更值得信赖的 AI。
6/9/2025 3:00:00 AM
晓晓
谷歌CEO劈柴震撼预言:2030年AI直逼超人智能,80亿人认知被颠覆
谷歌CEO劈柴在近期采访中提到,AI是人类将开发的影响最深远技术,比火或电更重要。 它的进步极快,能力上限未知,最独特的是AI能递归自我改进、自己创造和提升。 图片尤其是如果在AI研究领域达到超人水平,某天能比前一天更好地自我创造,这就像AlphaGo的第37步。
6/9/2025 2:15:00 AM
新智元
2025 生成式 AI 大棋局:全球数据报告里的趋势解读
大家好,我是肆〇柒。 今天,我们要深入探讨生成式 AI 如何重塑各行业版图。 这两天看到《AI Global Report: Global Sector Trends on Generative AI》,这份具有价值的报告,无疑是为我们提供了一份以数据为基础的指导。
6/9/2025 2:00:00 AM
肆零柒
0产品、0用户、0API!欧洲 AI 创企仅凭 1 段视频狂揽1300万刀
最近,在欧洲 AI 创业地图上,一笔 1300 万美元的种子轮融资格外醒目:没有发布产品、没有用户数据、甚至没有一行可供调用的 API,SpAItial,仅凭一段展示“文本生成 3D 房间”的短视频,就拿到了 Earlybird、Speedinvest 等顶级基金的下注。 这笔融资背后,是一个尚未成型、但注定重要的赛道:文本生成 3D 世界。 SpAItial 由图形学与 AI 研究者 Matthias Niessner 发起,他此前是 Synthesia 的联合创始人,也在慕尼黑工业大学长期从事视觉计算相关研究。
6/9/2025 2:00:00 AM
简析新一代身份安全解决方案—— AI IAM
统一身份和访问管理(Identity and access management,IAM)是一套体系化的身份安全解决方案,涵盖了技术、策略和流程,主要用于管理用户身份并控制用户对企业资源的合规访问。 在当今“数字优先”的世界中,IAM技术对组织变得越来越重要,因为组织内的员工需要在任何设备(服务)上实现“work-from-anywhere“的访问模式,这就需要比以往更加安全地赋予和验证数字身份,以实现安全的数字连接。 在此背景下,基于先进AI技术构建的新一代IAM解决方案应运而生。
6/9/2025 2:00:00 AM
智能体开发实战|基于Dify+MCP实现通过微信发送天气信息给好友
前言AI智能体通过感知环境、自主决策和执行任务,突破传统大模型仅限于语言交互的局限。 例如,当用户指令“订一张明天去北京的机票”时,智能体不仅理解语义,还能自动调用航班查询接口、完成支付并同步至日程系统。 这种能力使其在客服、医疗、智能制造等领域展现出颠覆性潜力。
6/9/2025 1:00:00 AM
AI大模型应用开发
医疗保健领域的数字化转型:构建基于价值的医疗企业软件
2025年,医疗行业正经历着一场翻天覆地的变革,价值医疗(VBC)正逐步取代传统的按服务付费模式。 不同于以往仅奖励服务数量的旧模式,价值医疗更注重服务质量、患者治疗效果以及整个医疗系统的效率。 在这场变革的核心,是企业级医疗软件——这些强大的数字化工具旨在简化操作流程、提升护理协调性,并支持基于数据的决策制定。
6/9/2025 12:00:00 AM
D1net编译
苹果炮轰推理模型全是假思考!4个游戏戳破神话,o3/DeepSeek高难度全崩溃
苹果最新大模型论文,在AI圈炸开了锅。 有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 这篇论文称推理模型全都没在真正思考,无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”,所谓思考只是一种假象。
6/8/2025 2:15:42 PM
六大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
又是一年高考时。 这届考生上午刚经历了抽象作文的洗礼,下午又被数学无情创飞。 考试一结束,「高考数学」、「新一卷数学大题 难」等词条就火速冲上微博热搜,考生们在评论区集体「哀嚎」:「大题写到怀疑人生」、「选择填空送分,大题送命」。
6/8/2025 12:23:06 PM
机器之心
具身智能最权威的一场圆桌!王兴兴回应质疑:当AI和具身智能到达某一阶段,机器人一定能打格斗!机器人届的格斗冠军和马拉松冠军都来了
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)宇树、银河通用、穹彻智能……当国内顶尖的机器人玩家同框,能碰撞出什么样的火花? 在今天智源做的AI春晚上,搞了一个很炸裂的“具身智能会客厅”,请来了王兴兴、熊友军、王鹤等顶尖大佬,分享最新进展和自己对行业的判断和洞察。 会上,王兴兴首次回应了机器人格斗“秀肌肉”的质疑,他表示格斗的关键在于动作的演示:因为我们公司终极目标还是希望机器人是干活的,无论是家里还是工厂。
6/6/2025 6:42:45 PM
伊风
12.1万高难度数学题让模型性能大涨,覆盖FIMO/Putnam等顶级赛事难度,腾讯上海交大出品
12.1万道IMO级难度数学“特训题”,让AI学会像人类一样推导数学证明! “特训”过后,模型定理证明性能大涨,7B模型性能比肩或超越现有的开源模型和Claude3.7等商业模型。 “特训题”为DeepTheorem,是首个基于自然语言的数学定理证明框架与数据集,由腾讯AI Lab与上海交大团队联合推出。
6/6/2025 2:25:04 PM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
AI新词
图像
Gemini
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
工具
计算
Sora
GPU
华为
大语言模型
RAG
具身智能
AI设计
字节跳动
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
编程
神器推荐
DeepMind
亚马逊
特斯拉
AI模型