理论
图像界的DeepSeek!12B参数对标GPT-4o,5秒出图,消费级硬件就能玩转编辑生成
图像模型开源还得是FLUX! Black Forest Labs刚刚宣布开源旗舰图像模型FLUX.1 Kontext[dev],专为图像编辑打造,还能直接在消费级芯片上运行。 只有小小的12B,更少的参数,更快的推理,性能更是媲美GPT-image-1等一众闭源模型。
6/30/2025 8:48:50 AM
盘一盘,2017年Transformer之后,LLM领域的重要论文
这两天 Andrej Karpathy 的最新演讲在 AI 社区引发了热烈讨论,他提出了「软件 3.0」的概念,自然语言正在成为新的编程接口,而 AI 模型负责执行具体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。 他认为,我们不只是在使用新工具,更是在构建一种全新的计算范式。
6/30/2025 8:48:00 AM
充分激发模态协作,MokA量身打造MLLM微调新范式
本文第一作者卫雅珂为中国人民大学四年级博士生,主要研究方向为多模态学习机制、多模态大模型等,师从胡迪副教授。 作者来自于中国人民大学和上海人工智能实验室。 近年来,多模态大模型(MLLMs)已经在视觉语言、音频语言等任务上取得了巨大进展。
6/30/2025 8:44:00 AM
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
一上手就令网友直呼「生图能力」比GPT-4o更强? ! 就在昨夜,阿里带着全新多模态模型Qwen-VLo开启炸场模式。
6/30/2025 8:43:00 AM
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,致力于在 GPU、移动端、FPGA 和 ASIC 等多种硬件平台上实现大模型的高效部署与加速。 第二作者为香港中文大学的韩晨夏,研究方向聚焦于计算机体系结构与 AI 系统的高效化设计。 在高质量视频生成任务中,扩散模型(Diffusion Models)已经成为主流。
6/30/2025 8:42:00 AM
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
本文第一作者是西湖大学博士生冯睿骐,通讯作者为西湖大学人工智能系助理教授吴泰霖。 吴泰霖实验室专注于解决 AI 和科学交叉的核心问题,包含科学仿真、控制、科学发现。 在解决离线强化学习、图片逆问题等任务中,对生成模型的能量引导(energy guidance)是一种可控的生成方法,它构造灵活,适用于各种任务,且允许无额外训练条件生成模型。
6/30/2025 8:36:00 AM
AgentAuditor:让智能体安全评估器的精确度达到人类水平
LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。 它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。 然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?
6/30/2025 8:32:00 AM
内容工作流自动化工具n8n vs LangGraph:哪个更好?
译者 | 李睿审校 | 重楼创建内容可能耗时费力,但如果采用合适的工具,这一过程会变得轻松得多。 n8n和LangGraph是两款功能强大的内容工作流自动化和增强工具。 n8n提供了可视化的无代码界面,非常适合快速直观地构建工作流,而LangGraph更适合希望使用LLM创建逻辑的开发人员。
6/30/2025 8:31:08 AM
李睿
OpenAI四位华人学者集体被挖,还是Meta重金出手
再一次,Meta「搜刮」了 OpenAI 的成员。 The Information 发布了文章,谈到 Meta 再聘四名 OpenAI 研究人员。 这离上一次 OpenAI 苏黎世办公室被 Meta 一锅端只隔了短短几天时间。
6/30/2025 8:26:00 AM
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
作者简介:本文第一作者牛润良是吉林大学人工智能学院博士研究生,研究方向包括大模型智能体、强化学习,专注于 GUI Agent。 通讯作者王琪为吉林大学人工智能学院研究员,研究方向包括数据挖掘、大模型、强化学习。 迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。
6/30/2025 8:25:00 AM
分布式机器学习的五大流行框架
译者 | 布加迪审校 | 重楼使用这些框架可以优化内存和计算资源,扩展你的机器学习工作流程,加快流程速度并降低总体成本。 分布式机器学习(DML)框架使你能够跨多台机器(使用 CPU、GPU 或 TPU)训练机器学习模型,从而大大缩短训练时间,同时高效处理原本内存无法容纳的大型复杂工作负载。 此外,这些框架还允许你处理数据集、调整模型,甚至使用分布式计算资源来给模型提供服务。
6/30/2025 8:21:58 AM
布加迪
CVPR 2025 | 零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征
当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。 为了高效地实现幻觉消除,西安交通大学研究团队提出了一种利用「幻觉子空间」(HalluSpace)进行零空间投影的高效模型权重编辑方法Nullu(Null space of HalluSpace)。 论文地址:::从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。
6/30/2025 8:15:00 AM
制药行业的AI应用图谱与数字化转型实战经验
制药行业正处于一个关键转折点,为了应对复杂药物研发与制造的挑战,向基于AI的技术转型不仅是可取的,而且是必不可少的。 制药行业的未来取决于其能否拥抱数字化转型,并利用AI的力量来简化运营流程、增强问题解决和根本原因分析能力、推动持续改进以及在制药监管和合规环境中降低风险。 制药行业的AI驱动未来预计AI将为制药行业带来每年600亿至1100亿美元的经济价值,这种未被充分挖掘的潜力主要源于AI在药物全生命周期中提高生产力的能力,能够根据复杂流程和操作工作流程量身定制,并且更容易根据用户需求进行个性化的数字工具将是关键。
6/30/2025 7:10:00 AM
Andreas
智能体规模化部署的隐形悬崖:如何避免部署崩盘?
想要构建并扩展智能体的企业还需要接受另一个现实:智能体的构建方式与其他软件截然不同。 根据Writer公司的CEO兼联合创始人May Habib的说法,智能体在构建方式、运行方式以及改进方式上都“有着根本的不同”,这意味着在处理自适应系统时,需要摒弃传统的软件开发生命周期(SDLC)。 “智能体并不总是可靠地遵循规则,”Habib在周三VB Transform大会的舞台上表示,“它们是结果导向的,它们会解读信息,会适应变化,而且,它们的行为真的只有在现实世界环境中才会显现出来。
6/30/2025 7:07:00 AM
Marty Swant
AI换人潮愈演愈烈,但企业真的应该跟风吗?
安全巨头CrowdStrike上月通过一份正式的美国证券交易委员会文件宣布,计划裁员约500人,约占其全球员工总数的5%,作为向更大程度依赖AI以提高效率和促进增长的战略转型的一部分。 尽管该公司预计将在其他业务领域进行裁员,但预计仍将在关键战略领域继续招聘,这一调整预计将耗资高达5300万美元。 虽然CrowdStrike的一位代表否认公司正在使用AI来取代员工,但其他科技公司,如金融服务公司Klarna和亚马逊,已将AI驱动的效率提升作为裁员的直接理由。
6/30/2025 7:00:00 AM
John Leyden
面向RAG与LLM的分块策略权威指南:从基础原理到高级实践
在现代人工智能系统架构中,当大型语言模型(LLMs)和向量数据库吸引着大部分目光时,一个更为基础的处理过程正在幕后默默工作——它最终决定了系统输出的质量、可靠性和相关性。 这个过程就是分块(Chunking):在信息到达模型之前对其进行策略性分割的关键步骤。 作为RAG(检索增强生成)系统的"隐藏架构",分块技术的优劣直接影响着LLM的理解、推理和回答能力,堪称AI应用的"智能基石"。
6/30/2025 4:15:00 AM
大模型之路
AI顶级人才争夺战白热化:Meta一亿美元从OpenAI强揽三员大将
当 OpenAI 首席执行官萨姆・奥特曼还在公开谴责对手 "用 1 亿美元奖金撬墙角" 时,马克・扎克伯格已用实际行动给出回应。 6 月 26 日,Meta 证实从 OpenAI 苏黎世研发中心挖走卢卡斯・拜耶、亚历山大・科列斯尼科夫、翟晓华三位核心研究员,直接补强其 "超级智能"(superintelligence)团队。 这场发生在 AI 巨头间的人才突袭战,撕开了全球通用人工智能(AGI)竞赛中最残酷的一角:顶级 AI 人才已成为比算力更稀缺的战略资源。
6/30/2025 3:00:00 AM
从少年游戏开发者到20亿美元退出 - Paul English的创业传奇
Paul English建立了Kayak.com——也许你听说过这个名字。 仅这一家公司就以20亿美元的价格被收购,而他还有其他多个成功退出的项目。 可以说,他拥有大多数创始人只能梦想的那种成功。
6/30/2025 3:00:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
Gemini
马斯克
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
特斯拉
场景
AI模型
深度学习
亚马逊
架构
Transformer
MCP
编程
Copilot
视觉