AI
AI视频生成新突破!字节提出一致性视频生成方法Phantom:通过跨模态对齐生成主题一致的视频,超多应用场景
Phantom 是一个统一的视频生成框架,适用于单主题和多主题参考,基于现有的文本转视频和图像转视频架构构建。 它通过重新设计联合文本-图像注入模型,利用文本-图像-视频三元组数据实现跨模态对齐。 此外,它在人物生成中强调主题一致性,同时增强了身份保留视频生成。
5/6/2025 9:41:06 AM
AIGC Studio
315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」
知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体,并表示「它运行得非常好」且「没有护城河」(指它并非难以复制)。 Thorsten Ball 在编程领域以其对系统编程和编程语言的深入研究而闻名,尤其擅长解释器、编译器和虚拟机等主题。 他撰写的《用 Go 语言自制编译器》和《用 Go 语言自制解释器》则被视为编译原理领域的「入门平替」。
5/6/2025 9:15:00 AM
机器之心
成熟的编程智能体,已经学会升级自己的系统了
编程智能体,几乎成为了 2025 年最热门的话题之一。 不管是学术机构还是工业界,都在寻找更高效的落地路径。 机器学习领域的历史经验表明,手工设计的解决方案最终会被学习到的解决方案所取代。
5/6/2025 9:10:00 AM
机器之心
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
大语言模型(LLMs)的成功激发了人们对各种智能体的兴趣。 将 LLM 用于智能体的一个关键假设是,LLMs 利用常识和思维链(Chain-of-Thought, CoT)进行推理,从而智能体可以有效地探索并高效地解决复杂领域的问题。 然而,LLM 智能体存在次优探索和知 - 行差距(knowing-doing gap)的问题,即无法有效地将模型中的知识转化为行动。
5/6/2025 9:08:00 AM
机器之心
DeepSeek开源的文件系统,是如何提升大模型效率的?
在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心
苹果携手 Anthropic,于开发更新版编程平台Xcode
据彭博社报道,苹果公司正与人工智能公司 Anthropic 合作,致力于开发新版本的 Xcode,这一版本将整合 AI 功能以提升代码编写、编辑和测试的效率。 Anthropic 以其 “Claude” 大语言模型而闻名,Claude 在编程任务上表现出色,与 OpenAI 的 ChatGPT 展开竞争。 为了加速产品开发,越来越多的公司开始采用 AI 编程工具,苹果自然也不甘落后。
5/6/2025 9:00:41 AM
AI在线
细节直逼亚毫米级!港科广分层建模突破3D人体生成|CVPR 2025
从人体单图变身高保真3D模型,不知道伤害了多少程序猿头发的行业难题,竟然被港科广团队一招破解了! 团队最新提出的MultiGO创新方案,借助分层建模思路——将人体分解为不同精度层级,从基础体型到衣物褶皱逐级细化。 这有点像在搭乐高积木:先大模块构建整体轮廓,再用小零件补充细节,最后再处理材质纹理。
5/6/2025 8:50:00 AM
首个移动端 AI 组件库正式发布!并宣布开源啦!
前言大家好,我是林三心,用最通俗易懂的话讲最难的知识点是我的座右铭,基础是进阶的前提是我的初心~ChatUI 3.0 的发布引入了许多新的特性和组件,旨在提升智能对话机器人的设计和开发效率。 以下是一些关键点和功能亮点:图片核心优化图片自然: 致力于提升对话的自然流畅性,让用户的互动体验更加亲切高效: 通过新组件的引入,增强了开发效率,减少了开发时间沉浸: 提升了视觉与互动体验,使用户能更沉浸于对话中图片新增组件图片Typing 组件: 用于展示服务端处理中的状态,缓解用户等待时的焦虑感,提升用户体验。 TypingBubble 组件: 将气泡内容呈现为打字效果,模拟人类输入的过程,增加互动感。
5/6/2025 8:46:33 AM
林三心不学挖掘机
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的纯多模态开源LLM来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的Perception-R1(PR1),在视觉推理中最基础的感知层面,探究rule-based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的纯视觉(计数,通用目标检测)以及视觉语言(grounding,OCR)任务,实验结果展现出在模型感知策略上的巨大潜力。
5/6/2025 8:40:00 AM
量子位
一文读懂到底什么是“模型蒸馏(Model Distillation)”技术?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的模型优化技术——模型蒸馏(Model Distillation)。 随着人工智能技术的高速发展,模型规模的不断扩大(如 GPT-4 的万亿参数)带来了性能的显著提升,但也伴随着高昂的计算成本和部署挑战,尤其在资源受限的边缘设备和实时系统中。 如何在保持模型性能的同时降低资源消耗,成为 AI 领域亟待解决的关键问题。
5/6/2025 8:35:00 AM
Luga Lee
尤雨溪:让 AI 更好的理解 Vue、Vite
尤雨溪今天宣布 Vue、Vite 和 Rolldown 项目都加上了 llms.txt 文件。 这是为了让大型语言模型 (LLM) 更方便地理解这些前端技术。 那这个 llms.txt 到底是什么?
5/6/2025 3:30:00 AM
前端充电宝
AI 正在改变前端开发:前端使用 AI 现状!
“State of JS”、“State of CSS”、“State of React”等开发者调查组织,近期推出了全新的 State of AI 调查,旨在全面了解 Web 开发领域对 AI 工具和技术的采用现状与痛点。 本文将围绕调查中的五大主题,简要呈现核心发现。 AI 大模型ChatGPT 以绝对优势领跑,使用率达 86%;紧随其后的是 Anthropic 的 Claude。
5/6/2025 2:40:00 AM
前端充电宝
安利五款超赞的开源 AI 前端组件库
前言在当今快速发展的前端技术领域中,开源项目一直扮演着举足轻重的角色。 它们不仅为开发者提供了丰富的工具和资源,还极大地促进了技术的创新和共享。 特别是在人工智能(AI)逐渐融入前端开发的今天,开源的AI前端组件库更是成为了提升开发效率、优化用户体验的重要利器。
5/6/2025 12:45:00 AM
大姚
DeepSeek还没登场,Qwen3 已经抢先引爆AI开源圈
AI 社区原本期盼 DeepSeek 发布重磅新品,却意外迎来了另一款令人瞩目的中国开源模型:Qwen3 正式登场。 此次发布的旗舰型号为 Qwen3-235B-A22B。 其中,235B 代表总参数量;而 A22B 指的是该模型采用了“专家混合”(Mixture of Experts,简称 MoE)架构,实际在每次查询中激活的参数量仅约为 220亿(22B)。
5/6/2025 12:35:33 AM
前端小智
Manus刷屏,AI的上限不断提高,人类该如何自处?
3月5日夜,一款名为“Manus”的AI Agent产品悄然上线。 短短24小时内,Manus便成了国内AI大模型领域最炙手可热的明星——邀请码一度在二手电商平台被炒到数万元,成为科技圈的“黄金船票”。 官方宣称,Manus不是简单的聊天机器人,而是能“连接思想和行动”的通用代理。
5/6/2025 12:35:00 AM
让GPT-4.1「头皮发麻的考试」!OpenAI给大模型上强度,AI能赢吗?
雕塑在大理石块中已经完成,甚至在我开始工作之前就已经存在。 它就在那里,我只需要凿去多余的材料。 ——米开朗基罗当被问及是如何创作出如此美丽的雕塑时,米开朗基罗说「雕塑已经存在,我只是需要凿去多余的材料」。
5/6/2025 12:22:00 AM
新智元
YouTube 上 AI 生成的儿童惊悚视频泛滥,平台监管面临挑战
近期调查发现,YouTube上部分频道利用AI技术生成针对儿童的恐怖视频,如小黄人被改造成怪物等。尽管平台有社区准则,但执行不力,专家建议家长加强监督并积极举报。#YouTube安全# #AI伦理#
5/5/2025 8:15:54 PM
远洋
亏损600亿!小扎的元宇宙彻底凉了,今年内或将关停全部项目!将转向用AI改造一切
小扎可能彻底梦碎元宇宙了! 根据外媒The Register 的报道,Meta CEO扎克伯格在财报电话会上的表态,几乎等于亲手为他昔日的“元宇宙梦”画上句号。 此前,小扎还不断“嘴硬”试图给元宇宙项目续命。
5/5/2025 6:03:38 PM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
智能体
AI创作
AI新词
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
蛋白质
开发者
Claude
苹果
AI for Science
Agent
生成式
神经网络
机器学习
3D
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
工具
GPU
华为
RAG
大语言模型
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
视频生成
预测
AGI
视觉
伟达
架构
Transformer
神器推荐
亚马逊
特斯拉
编程
Copilot
MCP