大模型
基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案,助力短剧出海
当短剧出海、跨境电商等新兴领域打造全球化内容时,面临着一个棘手的基础问题——原始视频的中文字幕。 原始字幕对于海外观众来说,不仅是无效信息,还严重干扰观看体验。 传统方案——直接添加对应外语字幕会导致画面杂乱,而使用马赛克或基于 GAN 的字幕擦除补全方案会导致画面模糊、帧间闪烁,都无法彻底解决这一挑战,使得优质内容的出海之路障碍重重。
Deep Agent 是如何让大模型更“聪明” ?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的开源库 - “Deep Agent”。 众所周知,AI Agent 无疑是当下最激动人心的技术叙事之一。 它让我们看到了一个未来:AI不再仅仅是被动应答的工具,而是能够自主感知、推理并行动的“数字员工”。
吴恩达解读 AI 天价薪酬:资本堆起的1亿美元不是情绪
人工智能界掀起了新的薪资地震。 吴恩达对此做了评价。 图片吴恩达在推特中表示,Meta为AI大模型开发者开出超过1亿美元的薪酬大礼包,震动了整个科技行业。
大模型训练“练兵千日”,别输在AI推理“用兵一时”
2025年被认为是AI智能体的元年,是AI走向大规模应用的开始。 随着AI应用爆发,算力的需求逻辑也正在被重塑:AI推理——而不是训练,将成为未来算力需求的核心增长点。 这种趋势在刚刚结束的2025年世界人工智能大会(WAIC)多有体现。
从GPT-OSS谈谈大模型算法和Infra演进
TL;DRgpt-oss开源了,整个模型架构的设计真的是非常的simple & elegant。 本文结合一些前段时间一些Infra相关的争议和自己开发Agent相关的分析, 来对未来模型架构演进做一些分析。 OverviewOpenAI这次开源的是gpt-oss-20b 和 gpt-oss-120b两个模型。
AI生死局仅存6位玩家!Claude之父:大模型天生就有“搞钱”冲动!做了CC才能懂模型如何进化!即使AI停滞,产品还要再做十年
出品 | 51CTO技术栈(微信号:blog51cto)说起来,今天已经立秋了,但 AI 圈的这个“盛夏”显然还没结束。 这几天,几大巨头接连出招,行业硝烟味渐浓。 明天大概率还有GPT-5要出来炸场。
OpenAI重磅发布gpt-oss系列开源大模型:媲美 GPT-4o
不论你是独立开发者、企业还是研究机构,现在都可以免费拥有一款与 GPT-4o 接近实力的语言模型。 开源但不“阉割”:媲美 GPT-4o,运行成本极低OpenAI 在这次发布中非常有诚意:gpt-oss-120b:在核心推理任务上已接近 GPT-4o-mini,支持 128k 上下文,单卡 80GB GPU 可跑。 gpt-oss-20b:性能对标 GPT-3.5(o3-mini),仅需 16GB 显存,可部署于消费级设备、本地推理、离线使用等场景。
独家丨盛大挖角代季峰,筹建新 AGI 公司对标 DeepSeek
AI 科技评论独家获悉,近日盛大网络挖角清华大学电子工程系副教授代季锋,正在筹备一家新的 AGI 公司,号称“对标 DeepSeek”,已有多位技术人才被猎头接触、介绍该团队的工作机会。 目前,该项目正处于核心团队招募阶段。 项目的核心人物之一代季峰,是清华大学电子工程系副教授,研究方向聚焦于视觉信息理解的基础模型与核心算法。
揭秘大模型的魔法:实现带可训练权重的自注意力机制
大家好,我是写代码的中年人。 上一篇我们实现了一个“无可训练参数”的注意力机制,让每个词都能“看看别人”,计算出自己的上下文理解。 虽然实现起来不难,但它只是个“玩具级”的注意力,离真正的大模型还差了几个“亿”个参数。
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
AI在线 7 月 31 日消息,阶跃星辰宣布新一代基础大模型 Step 3 正式开源,Step 3 API 已上线阶跃星辰开放平台(platform.stepfun.com),用户也可以在“阶跃 AI”官网(stepfun.com)和“阶跃 AI”App 进行体验。 据介绍,Step 3 的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开,重点解决视觉引入带来的 token 负担与训练干扰问题。 为此,其采用 5B Vision Encoder,并通过双层 2D 卷积对视觉特征进行降采样,将视觉 token 数量减少到原来的 1/16,减轻上下文长度压力,提升推理效率。
我国大模型应用个人用户注册超 31 亿
AI在线 7 月 31 日消息,据中国新闻网报道,记者从国家网信办获悉,当前 AI 正通过网页、移动应用、API 接口、本地部署、云服务部署等多种方式为用户提供服务。 据不完全统计,大模型应用的个人用户注册总数已超过 31 亿,API 调用用户总数超过 1.59 亿。 AI在线注意到,今年以来我国基础大模型的迭代速度加快,大模型在电子、原材料、消费品等行业加快落地。
刚刚,扎克伯克公开信:Meta不会开源全部模型
Meta 联合创始人兼首席执行官马克・扎克伯格从 OpenAI、谷歌和苹果等公司挖走了众多顶尖 AI 研究人员,并开出了数亿美元的薪酬,此举震惊了整个科技行业。 现在,他正在更多地分享他对超级智能的愿景。 在 Meta 财报电话会议召开前几个小时,扎克伯格一封公开信广为传播。
让 Gemini CLI 跑在你的私有大模型上
前不久,Google 开源了 Gemini CLI 工具,它允许用户通过命令行与 Gemini AI 模型进行高效交互。 然而,在实际应用中,出于安全性和成本控制的考虑,很多场景更适合使用本地部署的大语言模型(LLM)。 因此,让 Gemini CLI 支持连接本地 LLM 就显得尤为重要。
逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!本地大模型拐点来了!网友:别被大模型叙事带偏了(附指南)
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)起猛了,连老电脑都能跑智谱家新一代的 SOTA 模型了! 一篇来自技术人 Simon Willison(Python 知名 Web 框架 Django 的共同创始人)的实测文章,在 Hacker News 上引发热议:“我 2.5 年高龄的旧笔记本,现在不仅能在本地跑千亿参数模型,甚至还能用它写出一款完整的 JavaScript 太空入侵者游戏。 ”图片 这个模型,正是昨天新鲜出炉的 GLM-4.5 系列。
大模型中的嵌入向量
前面文章和小伙伴们聊了 Tokenizer,经过 Tokenizer 之后,自然语言变为 Token,那么大模型就可以直接训练 Token 了嘛? 还不行! 接下来还有一个词嵌入的环境,英文就是 Embedding,Embedding 实际上就是将 Token 转为张量,在有的场景下,Embedding 也指张量本身。
国内首个,MiniMax 大模型通过人机辩论图灵测试
AI在线 7 月 29 日消息,据央视频今日报道,在 2025 中国 AI 盛典现场,一场人机辩论激烈上演,而围绕辩论的“图灵测试”也顺利通过。 奇葩说辩手陈铭与 MiniMax 大模型辩手展开辩论,现场有超过 30% 的观众被 AI“迷惑”了,根据“图灵测试”规则,测试通过。 AI在线注:图灵测试(Turing test)是英国计算机科学家艾伦・图灵于 1950 年提出的思想实验,这个实验的流程是由一位询问者写下自己的问题,随后将问题发送给在另一个房间中的一个人与一台机器,由询问者根据他们所作的回答来判断哪一个是真人,哪一个是机器,所有测试者都会被单独分开,对话以纯文本形式透过屏幕传输,因此结果不取决于机器的语音能力,这个测试意在探求机器能否模仿出与人类相同或无法区分的智能。
只需一次指令微调,大模型变身全能专家天团,8B模型性能反超全微调基线 | ACL25 Oral
只需一次指令微调,即可让普通大模型变身“全能专家天团”? 改造位置自动定位专家协作动态平衡8B模型性能反超全微调基线1.6%,安全指标暴涨10%,推理内存直降30%! 图片当前预训练语言大模型(LLM)虽具备通用能力,但适应专业领域需高昂的指令微调成本;稀疏混合专家(SMoE)架构作为可扩展的性能-效率平衡框架,虽能提升推理效率并灵活扩展模型容量,但其从头训练消耗巨大资源,因此复用密集大模型参数的升级改造(LLM Upcycling)成为更具成本效益的替代方案。
百元级硬件流畅运行百亿参数大模型!上交&本智激活开源端侧原生大模型
AI的下一个战场,不在云端,而在你的口袋里。 iPhone、华为、三星、小米、OPPO等各大手机厂商几乎都在将大模型塞进手机,端侧AI已然成为兵家必争之地。 背后的逻辑清晰而坚定:最懂你的AI,必须能安全地访问你的个人数据——邮件、照片、日程,而这一切的前提,就是将计算留在本地,将隐私还给用户。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉