项目
告别「偏科」,UniVid实现视频理解与生成一体化
在视频生成与理解的赛道上,常常见到分头发力的模型:有的专注做视频生成,有的专注做视频理解(如问答、分类、检索等)。 而最近,一个开源项目 UniVid,提出了一个「融合」方向:把理解 生成融为一体 —— 他们希望用一个统一的模型,兼顾「看懂视频」 「生成视频」的能力。 这就像把「看图识物」和「画图创作」两件事,交给同一个大脑去做:理解一段文字 理解已有视频内容 → 再「画」出新的、连贯的视频 —— 这在技术上挑战极大。
10/21/2025 8:57:00 AM
混元开源之力:Spring-Ai-hunyuan 项目功能升级与实战体验
今天咱们继续聊聊 spring-ai-hunyuan 这个项目。 上次我们兼容了 spring-ai 的 1.0.0 正式版本之后,就暂时放了一阵子,没怎么动。 最近倒是收到不少小伙伴反馈,说混元的思考链功能为什么不返回结果。
10/13/2025 7:27:37 AM
灵墨AI探索室
让文字真正“写进”图像:阿里巴巴发布Qwen-Image
阿里巴巴发布了一款全新的多模态模型Qwen-Image,这款模型拥有200亿参数,专为解决“图中写字”这一难题而生。 1.这并非简单地在图片上“加字”。 Qwen-Image生成的文字具备真实感与融合度,不再漂浮在画面上,而是自然嵌入图像内部,仿佛原本就存在于其中。
8/8/2025 2:27:50 PM
React 正式接入 AI,你知道吗?
最近,React 官方在其 GitHub 仓库中引入了一个实验性项目 —— React MCP Server,通过 MCP 将大模型与 React 编译工具链连接起来。 简单来说,它使 AI 助手不仅能够生成代码,还能以“工具调用”的方式直接参与 React 代码的编译优化和文档查询。 MCP Server 实现了 MCP 协议,并定义了两个主要工具供 AI 使用:编译工具:通过集成 babel-plugin-react-compiler,该工具允许 AI 对传入的 React 组件代码进行编译优化。
6/16/2025 9:36:18 AM
CUGGZ
阿联酋推出 “星际之门” 计划,全面为国民支付ChatGPT订阅费
阿联酋近日宣布了一项雄心勃勃的计划,准备与多家全球顶尖科技公司合作,共同建设一座名为 “星际之门阿联酋”(Stargate UAE)的超级人工智能数据中心。 这一项目不仅规模庞大,规划总功率达到1吉瓦,更标志着阿联酋在全球人工智能领域的前瞻布局。 此次项目的合作伙伴包括知名企业如 OpenAI、英伟达、思科和软银等。
5/23/2025 10:00:55 AM
AI在线
RAG架构综述:探寻最适配RAG方案
RAG技术通过整合外部知识源检索与模型生成能力,使语言模型能够基于真实世界的信息生成更准确、可靠的回答。 如今,RAG技术不断演进,衍生出了多种各具特色的架构类型,每种都针对特定场景和需求进行了优化。 深入了解这些不同类型的RAG架构,对于开发者、数据科学家以及AI爱好者而言至关重要,能够帮助他们在项目中做出更合适的技术选型,充分发挥RAG的优势。
5/19/2025 8:26:37 AM
大模型之路
OpenAI 与软银的百亿 AI “星际之门”计划进展缓慢,融资难题悬而未决
在人工智能领域,OpenAI 与软银共同推出的星际之门(Stargate)项目一度引起了广泛关注。 该项目计划投资高达1000亿美元,目标是建立全球领先的人工智能基础设施,并希望在未来将投资额提升至5000亿美元。 然而,随着时间的推移,融资进展的缓慢和市场环境的变化使得这一宏伟计划面临挑战。
5/13/2025 10:01:02 AM
AI在线
Multi-Agent 架构之 Supervisor
从单 Agent 到 Workflow,现在已经进入了多 Agent 时代,多 Agent 本质上是在大模型的指导下,多个 Agent 共同协作完成用户的任务。 在这个背景下衍生出了多种 Agent 架构,比如中心化、去中心化、层次化等。 本文基于开源的 langgraph-supervisor-py 项目,分析 supervisor 架构下的多 Agent 设计,supervisor 架构是有一个 supervisor 和多个 Agent,supervisor 负责管理多个 Agent,Agent 负责具体的工作,开始执行时,从 supervisor 开始,然后根据大模型的返回不断调各个 Agent,每个 Agent 执行完再次回到 supervisor,supervisor 再次调大模型,如此反复,直到得到结果。
5/12/2025 12:05:00 AM
theanarkh
疯狂更新!Cursor年内放大招!强势推出后台多代理并行!顺利飞升真·多项目高效协作神器!统一简单定价!网友:下一个级别的产品
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)12个小时前,Cursor给出了一波有力的回击! 简化定价逻辑、后台并行代理、多代码库工作区、聊天markdown导出、新Tab模型……这波 Cursor 0.50的更新,堪称年内最重磅。 要问AI编码产品如何演进?
5/11/2025 11:33:49 PM
云昭
亏损600亿!小扎的元宇宙彻底凉了,今年内或将关停全部项目!将转向用AI改造一切
小扎可能彻底梦碎元宇宙了! 根据外媒The Register 的报道,Meta CEO扎克伯格在财报电话会上的表态,几乎等于亲手为他昔日的“元宇宙梦”画上句号。 此前,小扎还不断“嘴硬”试图给元宇宙项目续命。
5/5/2025 6:03:38 PM
使用Argo Workflows微调大语言模型
本文整理自:KCD 2025 Beijing: Fine-tuning LLM with Argo Workflows: A Kubernetes-native Approach1.在大语言模型上微调的挑战图片微调就是将特定的领域数据赋予到基础的大模型中进行特定的调优。 为什么要这样做呢,这是因为基础的大语言模型的设计较为通用,像一颗未经雕琢的宝石/百科全书,能够给我们比较通用全面的回答,当面对一些特定领域的问题,比如金融,健康等领域,回答不够精细化。 通过微调,可以让模型在特定领域达到出类拔萃的效果。
4/10/2025 7:59:51 AM
田双坤
无需邀请码,免费下载!中国五人团队三小时攻破Manus壁垒,如何做到的?
出品 | 51CTO技术栈(微信号:blog51cto)五人小团队3小时复刻出一个开源版的Manus项目,通用Agent的门槛在哪里呢? 这里为大家梳理一下OpenManus的情况,enjoy:1. 项目背景与开源情况OpenManus是一个开源项目,由国内团队仅用三小时开发完成。
3/7/2025 5:11:11 PM
受DeepSeek影响,印度启动重磅AI项目:计划投入2700万美元
在全球 AI 技术竞争愈演愈烈的背景下,印度政府启动了一项名为 BharatGen 的重大人工智能项目。 这一项目获得了科技部的支持,计划投入约235亿卢比(约合2700万美元),旨在构建国家自己的基础 AI 模型,以保障印度的科技自主性。 图源备注:图片由AI生成,图片授权服务商MidjourneyBharatGen 项目的推进并非偶然。
2/24/2025 5:52:00 PM
AI在线
“DeepSeek出了一个昏招!”
前两天和几个朋友聚会,有个朋友说:“DeepSeek这么厉害,为什么要开源? 美国人都知道了,那着高端显卡一练,一下子就把你超了,开源就是昏招,你看人家OpenAI就不开源。 ”我虽然当了很久的码农,也知道开源的巨大好处,但是他突然这么一说,我一时还不好反驳。
2/11/2025 9:17:57 AM
liuxin
深扒星际之门主角团:中东皇室也参与了!奥特曼搭上特朗普,至少5000亿开搞“星际之门”!大规模AI基建时代:带动数十万美国人就业
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)太炸裂了! 一早上刷到OpenAI奥特曼和特朗普同框了! 特朗普大手一挥,宣布了一个疯狂燃烧经费的AI项目——星际之门计划,将投资 "至少 "5000亿美元!
1/22/2025 1:41:11 PM
伊风
OpenAI Agent来了!大小事务自动帮你搞定,带推送提醒的那种,今日可开玩
开年第一剑,OpenAI Agent闪亮登场! ChatGPT新功能「Tasks」,让AI有了执行力,可以替你完成各种任务。 无论是一次性提醒还是重复执行的动作,告诉ChatGPT你需要什么以及何时需要,它会自动帮你处理。
1/15/2025 8:32:33 AM
CMU等曝光GitHub「地下产业链」!450万个Star都是刷的
什么? Github的star居然都能是假的了,甚至数量达到了惊人的450万! 大多数的研究人员都会将自己的项目发布到Github中,以增加曝光度。
1/6/2025 8:50:00 AM
新智元
计算机视觉项目实战:提升简历,精进技能
在计算机视觉领域,实践是检验理论、提升技能的试金石。 无论是初学者还是希望进一步提升自己的专业人士,通过参与实际项目都是至关重要的。 本文将引导您探索一系列计算机视觉项目,这些项目按照难度分类,旨在帮助您构建并展示您的专业技能。
12/13/2024 9:17:45 AM
AGI
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
LLM
代码
算法
芯片
Stable Diffusion
AI for Science
腾讯
苹果
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
生成
AI视频
百度
大语言模型
Sora
工具
GPU
具身智能
RAG
华为
计算
字节跳动
AI设计
搜索
AGI
大型语言模型
视频生成
场景
深度学习
架构
DeepMind
视觉
预测
Transformer
伟达
编程
生成式AI
AI模型
特斯拉
亚马逊