理论
文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
“先推理、再作答”,语言大模型的Thinking模式,现在已经被拓展到了图片领域。 近日,港中文MMLab团队发布了第一个基于强化学习的推理增强文生图模型:T2I-R1。 大家都知道,OpenAI o1和DeepSeek-R1这类的大语言模型(LLMs),已经在解数学题和写代码这些需要“动脑筋”的事情上面展现出了较高的水平。
5/13/2025 1:54:41 PM
量子位
全球闲置算力训个模型,性能媲美R1,老黄天塌了!Karpathy曾投资它
一夜之间,老黄天塌了(doge)。 全球首个分布式RL训练模型INTELLECT-2发布,它仅通过整合全球闲置或分散的计算资源,就完成了模型的强化学习训练,训练成本大大降低。 其模型性能与DeepSeek-R1媲美!
5/13/2025 1:51:20 PM
AI无限生成《我的世界》,玩家动动键盘鼠标自主控制!国产交互式世界模型来了
用AI无限扩展《我的世界》,动动鼠标、键盘即可搞定! 一直前进、砍掉树木,后面别有洞天的世界,都是由用户与环境交互、AI实时生成的。 也就是说,在砍掉树木之前,树后面的内容还是不存在的。
5/13/2025 1:50:00 PM
OpenAI新领导上任第一把火:DeepResearch一个小改动被网友狂赞!终于可导出PDF网友:啥时候能导出ChatGPT?
编辑 | 云昭就在刚刚! OpenAI 为其 Agent 代表作 Deep Research 功能推出了一项全新的 PDF 导出功能,允许用户下载格式完整的研究报告,包括表格、图片和可点击的引用链接。 这一看似不起眼的小动作意外引来了大批量用户的欢呼!
5/13/2025 12:47:16 PM
云昭
C++之父:重点没在下一个版本!而是如何写好现代版的C++
采访 | Tim Anderson整理 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)上周,5月6-7日,于慕尼黑举行的Qt World Summit大会上,C 之父Bjarne Stroustrup在其《21世纪的C 》主题演讲前特别接受了外媒DevClass的专访,访谈中涉及到很多,比如:如何写出现代风格的C ? 为什么替代这门语言很难? AI潜在的风险,以及为何拥有多套略有差异的编译器反而是一件好事?
5/13/2025 10:17:40 AM
云昭
常用模型蒸馏方法:这 N 个核心,你都知道吗?(上)
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活、健壮的模型技术体系。 随着深度学习模型规模的爆炸式增长,它们在各种任务上展现出令人惊叹的性能。 然而,庞大的参数量和计算需求也带来了新的挑战:如何在资源受限的设备上高效部署这些模型?
5/13/2025 9:48:20 AM
Luga Lee
LLM 学习笔记:最好的学习方法是带着问题去寻找答案
作者:huaxing知其然,然后知其所以然。 本文主要是对学习赛博活佛Andrej Karpathy 7个小时教学视频的总结和拓展阅读笔记,推荐去看原视频,很精彩,链接在文末。 从最常用的聊天应用过程分析开始,引入对话过程原理浅析,再到LLM训练过程;再结合当前主流的应用形式,在得知最新用法的同时,加深对LLM的理解;再谈谈AI的最新重大进展MCP;以及作为JAVAer,在Java领域有哪些前沿能力去整合LLM。
5/13/2025 9:42:46 AM
腾讯技术工程
月之暗面开源音频模型Kimi-Audio,从「语音转文字」到「读心对话」,让AI听懂人类 “弦外之音”!
近期,Kimi在语音交互领域发布了Kimi-Audio模型,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。 AI让机器不仅 “听到” 声音,更能 “听懂” 语言背后的情感、意图和语境。 Kimi-Audio 的核心突破,在于构建了一个全流程端到端的实时语音对话系统。
5/13/2025 9:21:30 AM
AIGC Studio
200M参数吊打商业巨头!浙大-哈佛开源ICEdit,用1%资源实现图像编辑自由!一句指令生成海报级修图方案
浙江大学联合哈佛大学提出一种高效的基于指令的图像编辑框架ICEdit,与以往的方法相比,ICEdit仅需1%的可训练参数(200M)和0.1% 的训练数据(50k),就展现出强大的泛化能力,能够处理各种编辑任务。 相比 Gemini、GPT4o 等商业模型,我们更加开源,成本更低,速度更快(处理一幅图像大约需要 9 秒),性能强大。 使用ComfyUI-nunchaku,仅需 4 GB VRAM GPU 就足以尝试我们的模型!
5/13/2025 9:12:18 AM
AIGC Studio
OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话
今天凌晨1点30,OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。 与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。 并且采用了多轮对话测试,而不是简单的答题或选择题模式。
5/13/2025 9:08:00 AM
Sam Altman最新万字专访:2025,Agent智能体应用大年
今天凌晨3点,全球著名投资机构红杉资本(Sequoia Capital)发布了,Sam Altman参加其举办的“2025 AI Ascent”大会。 OpenAI联合创始人兼首席执行官SamA ltaman作为特邀嘉宾,接受了32分钟的专访和现场提问。 Altaman回顾了OpenAI的创业历程、产品规划/发展、对AI行业的看法等。
5/13/2025 9:05:35 AM
GPT-5研发内幕首曝!OpenAI首席研究官:AGI指日可待
GPT-5到哪一步了? 最近,GPT-4.1核心研究员Michelle Pokrass透露,构建GPT-5的挑战在于,在推理和聊天之间找到适当的平衡。 她表示,「o3会认真思考,但并不适合进行随意聊天。
5/13/2025 9:02:23 AM
新智元
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇,目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健为共同第一作者。 在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。 以标准 24 帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。
5/13/2025 8:59:20 AM
如何规划AI提示词搜索需要的内容
如何规划AI提示词搜索需要的内容开发者在规划AI提示词时,需要考虑多个因素以确保能够从AI工具中获得高质量、准确且符合预期的输出。 以下是一些关键步骤和策略,以及具体的例子来说明如何规划有效的AI提示词。 明确角色与任务首先,应当明确AI在对话中的角色以及它需要完成的任务。
5/13/2025 8:58:00 AM
前端老兵
连续思维机器来了!Transformer八子之一创企推出,让AI不再「一步到位」拍脑袋做决定
科学界的一个共识是:即使是最复杂的现代人工智能,也难以媲美人类大脑的表现和效率。 研究者经常从大自然中寻找灵感,了解如何在人工智能领域取得进步,例如利用进化来合并模型、为语言模型进化出更高效的记忆或探索人工生命的空间。 虽然人工神经网络近年来让人工智能取得了非凡的成就,但它们仍然是其生物对应物的简化表征。
5/13/2025 8:56:54 AM
o3 vs o4 mini vs Gemini 2.5 pro:终极推理之战
译者 | 李睿审校 | 重楼随着技术的发展和进步,人工智能模型越来越智能,但究竟哪一种人工智能模型能在压力下展现出真正的推理能力? 本文对o3、o4-mini和Gemini 2.5 Pro这三种人工智能模型进行了一系列测试:物理谜题、数学问题、编码任务和现实世界的智商测试。 而应对这些挑战并没有任何捷径,而只有对它们思维能力的考验。
5/13/2025 8:24:14 AM
李睿
CodeBuddy的七种武器
中学时代非常喜欢看武侠小说,“飞雪连天射白鹿,笑书神侠倚碧鸳”自然不在话下,还看过梁羽生的《白发魔女传》与《七剑下天山》等书,当然还有古龙的《多情剑客无情剑》《绝代双骄》等,以及颇具特色的《七种武器》。 近来使用CodeBuddy,于是借用“七种武器”的噱头,聊一下CodeBuddy的七个功能特性,过一把武侠瘾。 1.长生剑:Craft智能体在编程江湖的传说里,Craft智能体就像一柄藏在键盘中的"长生剑"——这柄剑没有锋刃却通晓编程,剑鸣轻响间便能将言语化作代码星河。
5/13/2025 8:20:58 AM
曹洪伟
CIO如何将AI炒作转化为切实的业务成果
在企业中,AI的优先级并不总是被完全理解,技术投入与投资既可以相辅相成,也可能相互掣肘。 在Foundry的《2025年AI优先级研究》中,企业透露他们正在为AI项目分配比以往更多的资金,近一半的企业现在都在为AI项目预留预算,这一比例从2023年的36%有所上升,此外,他们还将近25%的IT支出用于AI计划。 虽然有些企业比其他企业采取更为审慎的态度,但南非科技领袖们的共识是,AI投资必须带来切实的成果,且AI预算必须在整个企业中战略性地分配。
5/13/2025 7:00:00 AM
Joanne
资讯热榜
DeepRare 重磅发布:全球首个可循证智能体诊断系统,直击医学Last Exam难题
AI时代设计师如何突围?D20峰会揭示未来设计师生存法则
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
考试提分新工具:网页版 ChatGPT 测试“学习和掌握”功能,AI 助你成学霸
我测试了100+案例,教你零基础复刻外网刷屏的 AI 视频(附提示词模板)
阿里云通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文,可与 Claude Sonnet4 媲美
终结Coding?ShellAgent三句话造出马斯克同款「AI女友」!
MinerU 2.0部署教程!
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
英伟达
Anthropic
智能体
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
xAI
计算
人形机器人
Agent
Sora
AI视频
GPU
百度
AI设计
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
神器推荐
AGI
亚马逊
视频生成
Copilot
DeepMind
模态
架构
LLaMA