模型
多模态大模型MMaDA:让AI学会「跨次元思考」,文本图像通吃的全能型选手来了!
最近,普林斯顿大学、字节跳动、清华大学和北京大学联手搞了个大事情,推出了一款名为 MMaDA 的多模态大模型! 这可不是普通的 AI,它号称能让 AI 拥有“深度思考”的能力,还能在文本、图像、甚至复杂的推理任务之间“七十二变”,表现力直接超越了你熟悉的 GPT-4、Gemini、甚至 SDXL!你可能觉得,现在的多模态模型已经很厉害了,能看图说话,也能根据文字生成图片。 但 MMaDA 告诉我们:这还远远不够!
5/22/2025 3:00:55 PM
AI在线
24B模型编程超DeepSeek全家桶,32G内存苹果电脑就能跑,专门针对真实GitHub Issue训练
Mistral沉默好久,果然在憋大招。 刚刚发布最新开源编程模型Devstral,在软件工程任务上一举超过DeepSeek全家桶和Qwen3 235B。 并且参数只有24B,可以在单卡RTX4090甚至32G内存的Mac上运行。
5/22/2025 1:43:40 PM
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日,华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题:FlashComm1: 大模型推理中的 AllReduce 通信优化技术。 将 AllReduce 基于通信原理进行拆解,并结合后续计算模块进行协同优化,推理性能提升 26%。
5/22/2025 1:40:21 PM
硅基流动升级DeepSeek-R1 等推理模型API ,支持 128K 上下文长度
硅基流动(SiliconCloud)宣布对其 DeepSeek-R1等推理模型 API 进行了一次重要升级,旨在更好地满足开发者对长上下文和灵活参数配置的需求。 此次升级中,多个推理模型的最大上下文长度被提升至128K,使得模型在思考时能够更加充分,输出内容也更为完整。 在此次升级中,多个知名模型,如 Qwen3、QWQ、GLM-Z1等,均支持128K 的最大上下文长度,而 DeepSeek-R1则支持96K。
5/22/2025 12:00:55 PM
AI在线
微软支持的 AI 模型颠覆飓风预测,速度与成本双双优于传统方法
近日,科学家开发出了一种名为 “Aurora” 的机器学习模型,它在热带气旋轨迹预测方面表现优于官方机构,并且速度更快、成本更低。 Aurora 是由微软、宾夕法尼亚大学及其他机构的研究人员共同研发的基础模型,旨在提升地球系统预测的速度和准确性,涵盖空气质量、海洋波动、热带气旋轨迹以及高分辨率天气等领域。 图源备注:图片由AI生成,图片授权服务商MidjourneyAurora 的联合作者、宾夕法尼亚大学机械工程及应用力学副教授巴黎・佩尔迪卡里斯(Paris Perdikaris)表示,Aurora 类似于大型神经网络,能够从过去的地球物理数据中学习,预测复杂的物理过程,而不再依赖传统的物理方程。
5/22/2025 11:00:55 AM
AI在线
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
谷歌又放新大招了,将图像生成常用的“扩散技术”引入语言模型,12秒能生成1万tokens。 什么概念? 不仅比Gemini 2.0 Flash-Lite更快。
5/22/2025 9:08:00 AM
ACL 2025 | 大模型乱试错、盲调用?KnowSelf让智能体有「知识边界感知」能力
在 AI 领域,大模型智能体的发展日新月异。 我们今天要介绍的这篇 ACL 2025 论文——《Agentic Knowledgeable Self-awareness》,聚焦于如何提升智能体的「知识边界感知」能力,使其在复杂任务规划中更加得心应手,为智能体的可靠应用提供了新思路。 论文标题:Agentic Knowledgeable Self-awareness论文链接:: 秒速读版本KnowSelf 聚焦于大模型智能体在决策过程中所面临的「知识边界感知」问题。
5/22/2025 9:07:00 AM
Mistral 重返开源阵营:发布超高效代码 AI 模型 Devstral 笔记本电脑也能跑
法国人工智能模型制造商 Mistral 在因其最新闭源模型 Medium3受到部分开源社区批评后,迅速回归开源路线。 该公司近日与开源初创公司 All Hands AI(OpenDevin 的创建者)合作,推出了全新的开源语言模型 Devstral。 这款拥有2400万参数的轻量级模型,专为代理 AI 软件开发而设计,其性能甚至在特定基准测试中超越了许多参数高达数十亿的竞争对手,包括一些闭源模型。
5/22/2025 9:00:55 AM
AI在线
OpenAI放大招!核心API支持MCP,一夜改变智能体开发
今天凌晨,OpenAI全资收购io的消息占据了大部分头条。 同时OpenAI也“悄悄地”放出了另外一个重磅消息,用于开发智能体的核心API——Responses API支持MCP服务。 传统方法,我们在开发智能体需要通过函数调用与外部服务交互,每次操作都涉及从大模型到后端再到外部服务的网络传输,导致多次跳转、延迟会很高,并增加扩展和管理的复杂性。
5/22/2025 8:55:03 AM
如何基于自定义MCP服务器构建支持工具调用的Llama智能体(含code)
一、背景与目标:从知识隔离到本地化智能体在人工智能应用日益普及的今天,隐私保护与数据主权成为重要挑战。 传统的AI模型依赖外部服务,导致私有知识面临泄露风险。 本文将详细介绍如何构建一个完全本地化的AI智能体,通过自定义的Model Context Protocol(MCP)服务器实现知识隔离,并结合Llama 3.2轻量级模型实现工具调用能力。
5/22/2025 8:51:48 AM
大模型之路
谷歌推出 MedGemma AI 模型:医疗图像与文本分析的革命性工具
在刚刚结束的2025年 I/O 开发者大会上,谷歌宣布开源全新医疗 AI 模型 ——MedGemma。 这款基于 Gemma3架构的模型专为医疗领域设计,具备强大的多模态图像和文本理解能力,旨在提升医疗诊断与治疗效率。 MedGemma 提供两种配置选项,分别为4B 和27B 参数模型。
5/21/2025 4:00:55 PM
AI在线
腾讯大模型战略亮相 Turbo S 与 T1 模型全面升级
5月21日,腾讯宣布其混元大模型矩阵全面升级,标志着腾讯在人工智能领域的技术能力持续提升。 此次升级涵盖了多个方面,包括旗舰快思考模型混元TurboS、深度思考模型混元T1的升级,以及基于TurboS基座新推出的视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。 此外,腾讯还同步更新了混元图像2.0、混元3D v2.5及混元游戏视觉生成等一系列多模态模型。
5/21/2025 2:01:08 PM
AI在线
苹果将开放AI模型给开发者,力求催生创新应用
苹果公司近日宣布,将向第三方开发者开放其人工智能模型,旨在激发新应用的创造力,并提升其设备的吸引力。 知情人士透露,这一计划将在6月9日的全球开发者大会(WWDC)上正式发布。 苹果希望通过提供软件开发工具包(SDK)和相关框架,让开发者能够基于其大型语言模型构建 AI 功能。
5/21/2025 2:01:08 PM
AI在线
腾讯混元宣布模型矩阵全面升级,新推视觉推理模型T1-Vision和语音通话模型混元Voice
今日,腾讯混元正式宣布其模型矩阵的全面升级,包括 旗舰快思考模型混元TurboS、深度思考模型混元T1升级,并基于TurboS基座,新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。 另外,腾讯混元图像2.0、腾讯混元3D v2.5及混元游戏视觉生成等一系列多模态模型同步“上新”。 此次升级不仅增强了混元在 AI 领域的竞争力,也标志着腾讯在多模态技术上的新进展。
5/21/2025 2:01:08 PM
AI在线
ChatGPT转型计划曝光!不再只是回答问题,而是通过穿插使用工具变身行动助手
AI Agent今天是初级工程师,6个月后是高级工程师,一年后是架构师。 这是OpenAI CPO Kevin Weil在接受最新访谈时提出的构想。 他表示,ChatGPT将从回答问题转变为为用户做事。
5/21/2025 1:57:58 PM
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
不再依赖语言,仅凭图像就能完成模型推理? 大模型又双叒叕迎来新SOTA! 当你和大模型一起玩超级玛丽时,复杂环境下你会根据画面在脑海里自动规划步骤,但LLMs还需要先转成文字攻略一格格按照指令移动,效率又低、信息也可能会丢失,那难道就没有一个可以跳过“语言中介”的方法吗?
5/21/2025 1:56:37 PM
瘦身不降智!大模型训推效率提升30%,京东大模型开发计算研究登Nature旗下期刊
京东探索研究院关于大模型的最新研究,登上了Nature旗下期刊! 该项研究提出了一种在开放环境场景中训练、更新大模型,并与小模型协同部署的系统与方法。 它通过模型蒸馏、数据治理、训练优化与云边协同四大创新,这个项目将大模型推理效率平均提升30%,训练成本降低70%。
5/21/2025 1:54:20 PM
何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%
这段时间,大神何恺明真是接连不断地发布新研究。 这不,5 月 19 日,他又放出一篇新作! 论文标题:Mean Flows for One-step Generative Modeling 论文地址: MeanFlow 的单步生成建模框架,通过引入平均速度(average velocity)的概念来改进现有的流匹配方法,并在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散 / 流模型的结果,FID 分数达到 3.43,且无需预训练、蒸馏或课程学习。
5/21/2025 1:53:49 PM
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊