AI在线 AI在线

AI

AI视频生成新突破!字节提出一致性视频生成方法Phantom:通过跨模态对齐生成主题一致的视频,超多应用场景

Phantom 是一个统一的视频生成框架,适用于单主题和多主题参考,基于现有的文本转视频和图像转视频架构构建。 它通过重新设计联合文本-图像注入模型,利用文本-图像-视频三元组数据实现跨模态对齐。 此外,它在人物生成中强调主题一致性,同时增强了身份保留视频生成。
5/6/2025 9:41:06 AM
AIGC Studio

315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」

知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体,并表示「它运行得非常好」且「没有护城河」(指它并非难以复制)。 Thorsten Ball 在编程领域以其对系统编程和编程语言的深入研究而闻名,尤其擅长解释器、编译器和虚拟机等主题。 他撰写的《用 Go 语言自制编译器》和《用 Go 语言自制解释器》则被视为编译原理领域的「入门平替」。
5/6/2025 9:15:00 AM
机器之心

成熟的编程智能体,已经学会升级自己的系统了

编程智能体,几乎成为了 2025 年最热门的话题之一。 不管是学术机构还是工业界,都在寻找更高效的落地路径。 机器学习领域的历史经验表明,手工设计的解决方案最终会被学习到的解决方案所取代。
5/6/2025 9:10:00 AM
机器之心

谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

大语言模型(LLMs)的成功激发了人们对各种智能体的兴趣。 将 LLM 用于智能体的一个关键假设是,LLMs 利用常识和思维链(Chain-of-Thought, CoT)进行推理,从而智能体可以有效地探索并高效地解决复杂领域的问题。 然而,LLM 智能体存在次优探索和知 - 行差距(knowing-doing gap)的问题,即无法有效地将模型中的知识转化为行动。
5/6/2025 9:08:00 AM
机器之心

DeepSeek开源的文件系统,是如何提升大模型效率的?

在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心

苹果携手 Anthropic,于开发更新版编程平台Xcode

据彭博社报道,苹果公司正与人工智能公司 Anthropic 合作,致力于开发新版本的 Xcode,这一版本将整合 AI 功能以提升代码编写、编辑和测试的效率。 Anthropic 以其 “Claude” 大语言模型而闻名,Claude 在编程任务上表现出色,与 OpenAI 的 ChatGPT 展开竞争。 为了加速产品开发,越来越多的公司开始采用 AI 编程工具,苹果自然也不甘落后。
5/6/2025 9:00:41 AM
AI在线

细节直逼亚毫米级!港科广分层建模突破3D人体生成|CVPR 2025

从人体单图变身高保真3D模型,不知道伤害了多少程序猿头发的行业难题,竟然被港科广团队一招破解了! 团队最新提出的MultiGO创新方案,借助分层建模思路——将人体分解为不同精度层级,从基础体型到衣物褶皱逐级细化。 这有点像在搭乐高积木:先大模块构建整体轮廓,再用小零件补充细节,最后再处理材质纹理。
5/6/2025 8:50:00 AM

首个移动端 AI 组件库正式发布!并宣布开源啦!

前言大家好,我是林三心,用最通俗易懂的话讲最难的知识点是我的座右铭,基础是进阶的前提是我的初心~ChatUI 3.0 的发布引入了许多新的特性和组件,旨在提升智能对话机器人的设计和开发效率。 以下是一些关键点和功能亮点:图片核心优化图片自然: 致力于提升对话的自然流畅性,让用户的互动体验更加亲切高效: 通过新组件的引入,增强了开发效率,减少了开发时间沉浸: 提升了视觉与互动体验,使用户能更沉浸于对话中图片新增组件图片Typing 组件: 用于展示服务端处理中的状态,缓解用户等待时的焦虑感,提升用户体验。 TypingBubble 组件: 将气泡内容呈现为打字效果,模拟人类输入的过程,增加互动感。
5/6/2025 8:46:33 AM
林三心不学挖掘机

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的纯多模态开源LLM来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的Perception-R1(PR1),在视觉推理中最基础的感知层面,探究rule-based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的纯视觉(计数,通用目标检测)以及视觉语言(grounding,OCR)任务,实验结果展现出在模型感知策略上的巨大潜力。
5/6/2025 8:40:00 AM
量子位

一文读懂到底什么是“模型蒸馏(Model Distillation)”技术?

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的模型优化技术——模型蒸馏(Model Distillation)。 随着人工智能技术的高速发展,模型规模的不断扩大(如 GPT-4 的万亿参数)带来了性能的显著提升,但也伴随着高昂的计算成本和部署挑战,尤其在资源受限的边缘设备和实时系统中。 如何在保持模型性能的同时降低资源消耗,成为 AI 领域亟待解决的关键问题。
5/6/2025 8:35:00 AM
Luga Lee

尤雨溪:让 AI 更好的理解 Vue、Vite

尤雨溪今天宣布 Vue、Vite 和 Rolldown 项目都加上了 llms.txt 文件。 这是为了让大型语言模型 (LLM) 更方便地理解这些前端技术。 那这个 llms.txt 到底是什么?
5/6/2025 3:30:00 AM
前端充电宝

AI 正在改变前端开发:前端使用 AI 现状!

“State of JS”、“State of CSS”、“State of React”等开发者调查组织,近期推出了全新的 State of AI 调查,旨在全面了解 Web 开发领域对 AI 工具和技术的采用现状与痛点。 本文将围绕调查中的五大主题,简要呈现核心发现。 AI 大模型ChatGPT 以绝对优势领跑,使用率达 86%;紧随其后的是 Anthropic 的 Claude。
5/6/2025 2:40:00 AM
前端充电宝

安利五款超赞的开源 AI 前端组件库

前言在当今快速发展的前端技术领域中,开源项目一直扮演着举足轻重的角色。 它们不仅为开发者提供了丰富的工具和资源,还极大地促进了技术的创新和共享。 特别是在人工智能(AI)逐渐融入前端开发的今天,开源的AI前端组件库更是成为了提升开发效率、优化用户体验的重要利器。
5/6/2025 12:45:00 AM
大姚

DeepSeek还没登场,Qwen3 已经抢先引爆AI开源圈

AI 社区原本期盼 DeepSeek 发布重磅新品,却意外迎来了另一款令人瞩目的中国开源模型:Qwen3 正式登场。 此次发布的旗舰型号为 Qwen3-235B-A22B。 其中,235B 代表总参数量;而 A22B 指的是该模型采用了“专家混合”(Mixture of Experts,简称 MoE)架构,实际在每次查询中激活的参数量仅约为 220亿(22B)。
5/6/2025 12:35:33 AM
前端小智

Manus刷屏,AI的上限不断提高,人类该如何自处?

3月5日夜,一款名为“Manus”的AI Agent产品悄然上线。 短短24小时内,Manus便成了国内AI大模型领域最炙手可热的明星——邀请码一度在二手电商平台被炒到数万元,成为科技圈的“黄金船票”。 官方宣称,Manus不是简单的聊天机器人,而是能“连接思想和行动”的通用代理。
5/6/2025 12:35:00 AM

让GPT-4.1「头皮发麻的考试」!OpenAI给大模型上强度,AI能赢吗?

雕塑在大理石块中已经完成,甚至在我开始工作之前就已经存在。 它就在那里,我只需要凿去多余的材料。 ——米开朗基罗当被问及是如何创作出如此美丽的雕塑时,米开朗基罗说「雕塑已经存在,我只是需要凿去多余的材料」。
5/6/2025 12:22:00 AM
新智元

YouTube 上 AI 生成的儿童惊悚视频泛滥,平台监管面临挑战

近期调查发现,YouTube上部分频道利用AI技术生成针对儿童的恐怖视频,如小黄人被改造成怪物等。尽管平台有社区准则,但执行不力,专家建议家长加强监督并积极举报。#YouTube安全# #AI伦理#
5/5/2025 8:15:54 PM
远洋

亏损600亿!小扎的元宇宙彻底凉了,今年内或将关停全部项目!将转向用AI改造一切

小扎可能彻底梦碎元宇宙了! 根据外媒The Register 的报道,Meta CEO扎克伯格在财报电话会上的表态,几乎等于亲手为他昔日的“元宇宙梦”画上句号。 此前,小扎还不断“嘴硬”试图给元宇宙项目续命。
5/5/2025 6:03:38 PM