资讯列表

分类

标签

告别「偏科」，UniVid实现视频理解与生成一体化

告别「偏科」，UniVid实现视频理解与生成一体化

在视频生成与理解的赛道上，常常见到分头发力的模型：有的专注做视频生成，有的专注做视频理解（如问答、分类、检索等）。而最近，一个开源项目 UniVid，提出了一个「融合」方向：把理解生成融为一体 —— 他们希望用一个统一的模型，兼顾「看懂视频」「生成视频」的能力。这就像把「看图识物」和「画图创作」两件事，交给同一个大脑去做：理解一段文字理解已有视频内容 → 再「画」出新的、连贯的视频 —— 这在技术上挑战极大。

10/21/2025 8:57:00 AM

马斯克:Grok5迈向通用人工智能的机会上升至10%

马斯克:Grok5迈向通用人工智能的机会上升至10%

近日，埃隆・马斯克在社交平台 X 上透露，他对即将发布的 xAI 公司新一代大型语言模型 Grok5的预期变得愈加乐观。他表示，Grok5实现通用人工智能（AGI）的概率已达到10%，并且这一可能性还在持续上升。马斯克的言论引发了广泛的关注，因为目前全球尚无任何公司真正实现 AGI，而众多企业正为这一目标而努力。

10/21/2025 8:56:33 AM AI在线

OpenAI强化Sora 2保护政策，确保艺人声音与肖像权不被侵犯

OpenAI强化Sora 2保护政策，确保艺人声音与肖像权不被侵犯

OpenAI于10月20日宣布了一项重大的更新，旨在保护艺术家的声音和肖像权。这项新措施是在与美国演员工会（SAG-AFTRA）、知名演员布莱恩・克兰斯顿及多家艺能公司的合作下推出的，旨在加强对其新产品 Sora2的监管。 Sora2是 OpenAI 推出的一款能够模拟声音与形象的技术，但随着其应用范围的扩大，涉及的伦理和法律问题也日益凸显。

10/21/2025 8:56:33 AM AI在线

阿里夸克“C计划”曝光:目标直指对话式AI应用，或剑指字节“豆包”

阿里夸克“C计划”曝光:目标直指对话式AI应用，或剑指字节“豆包”

据新浪科技报道，阿里巴巴旗下AI旗舰应用夸克正秘密推进一项代号为“C计划”的重磅AI业务。该计划由夸克核心团队主导，并有多位通义实验室的高级别成员参与，目标直指对话式AI应用布局，且首个阶段性成果预计将于近日落地。多位消息人士透露，“C计划”是一项需要长期投入、且高度依赖模型技术突破的产品，目前即将浮出水面的仅为阶段性成果，显示出阿里在AI应用赛道长期深耕的决心。

10/21/2025 8:56:32 AM AI在线

LLM记忆管理终于不用“手把手教”了，新框架让智能体自主管理记忆系统

LLM记忆管理终于不用“手把手教”了，新框架让智能体自主管理记忆系统

不再依赖人工设计，让模型真正学会管理记忆。来自来自加州大学圣地亚哥分校、斯坦福大学的研究人员提出了一个创新的强化学习框架——Mem-α，用于训练LLM智能体自主管理复杂的记忆系统。在实际应用中，仅仅依靠prompts和instructions往往不足以覆盖所有场景：模型经常会遇到不知道如何更新记忆的情况，尤其是当记忆系统像MIRIX那样变得复杂时。

10/21/2025 8:53:00 AM

OpenAI也缺卡！僧多粥少，自曝内部抢卡抢到发疯

OpenAI也缺卡！僧多粥少，自曝内部抢卡抢到发疯

OpenAI正面临绝对的算力稀缺。总裁Greg Brockman自曝内部算力资源争夺严重，已经到了用痛苦与煎熬来形容的程度。说起来也不意外，现在AI领域但凡想搞点新东西，算力都是绕不开的坎儿。

10/21/2025 8:52:00 AM

宇树最新机器人发布：1米8大高个，能跳舞会功夫，就是颜值一言难尽

宇树最新机器人发布：1米8大高个，能跳舞会功夫，就是颜值一言难尽

宇树第四款人形机器人，Unitree H2转着圈圈来了！这款新品身高180厘米，体重70公斤，比同身高的H1机器人重了足足23公斤。宽肩窄腰，意味着电池和控制板都必须塞进它小小的胸膛。

10/21/2025 8:43:00 AM

Suno V5正式封神！教你零基础一键生成爆款AI音乐

Suno V5正式封神！教你零基础一键生成爆款AI音乐

三天前的夜里，我正在刷抖音，刷到一个用 R&B 风格唱的《一路向北》当时就给我听麻了。我当时就是“早知道，还是原道”那个图片表情，太震撼了，而且音频非常清晰我都没想过是 AI 唱的。然后我就去作者的主页看，又看到了《青花瓷》没想到下面写着 Suno 5 。

10/21/2025 8:22:18 AM 歸藏

DeepSeek新模型被硅谷夸疯了！用二维视觉压缩一维文字，单GPU能跑，“谷歌核心机密被开源”

DeepSeek新模型被硅谷夸疯了！用二维视觉压缩一维文字，单GPU能跑，“谷歌核心机密被开源”

DeepSeek最新开源的模型，已经被硅谷夸疯了！因为实在太DeepSeek了。 3B规模、指数级效能变革、大道至简，甚至被认为把谷歌Gemini严防死守的商业机密开源了。

10/21/2025 8:03:21 AM

联邦学习：无需共享原始数据训练模型

联邦学习：无需共享原始数据训练模型

译者 | 李睿审校 | 重楼随着机器学习对训练数据的需求与日俱增，传统的集中式训练方式在隐私要求、运营效率低下以及消费者日益增长的怀疑态度下不堪重负。由于道德和法律限制，医疗记录或支付历史等责任信息已经难以被简单地集中采集与处理。在此背景下，联邦学习提供了一种截然不同的解决方案：它摒弃了“将数据传输至模型”的传统思路，转而采用“将模型推送至数据所在端”的创新模式。

10/21/2025 8:00:00 AM 李睿

AI正在改写地图APP！这一次轮到谷歌了

AI正在改写地图APP！这一次轮到谷歌了

谷歌这回整了个大活儿！即日起，所有开发者可通过Gemini API调用谷歌地图工具，以便轻松将位置感知功能整合进其应用中。简单粗暴地说，现在但凡你的应用跟“位置”沾边，Gemini都能立刻调用谷歌地图那套庞大的地理数据库——2.5亿个地点全给它接通了。

10/21/2025 7:55:39 AM 一水

智能体时代的三重奏：身份验证、安全防护与AI驱动型数据治理的融合演进

智能体时代的三重奏：身份验证、安全防护与AI驱动型数据治理的融合演进

如今，在数字世界的闲聊圈子里，有一条不成文的新规矩：千万别问别人关于其“智能体年龄”的问题。试图通过大语言模型逗乐取笑，这招可不怎么高明，而当下正进行得如火如荼、收获颇丰的，是一场抢占身份安全管理市场的行动。随着智能体的广泛应用，这一市场正迎来爆发式增长。

10/21/2025 7:10:00 AM Joel

从重复抽卡到脑洞大开？一句话让AI更聪明！

从重复抽卡到脑洞大开？一句话让AI更聪明！

只要你平时用多了AI，可能会发现一个问题？比如你让AI帮优化个文章，它总是动不动就给你用上冒号（：）跟破折号（——），文字间还特别喜欢用成语，喜欢用自问自答，还喜欢用序号（1,2,3,4...），有时候套话还挺多，甚至有时候当你反复抽卡时结果却越来越相似。明明是不同的，有时甚至是同一个模型换个会话，问同一个开放性问题，得到的答案却总是很相似。

10/21/2025 5:02:24 AM 彩云Sky

视频AI的"统一时刻"：UniVideo如何实现理解、生成与编辑的三位一体

视频AI的"统一时刻"：UniVideo如何实现理解、生成与编辑的三位一体

大家好，我是肆〇柒。今天阅读一份由加拿大滑铁卢大学(University of Waterloo)与快手科技可灵团队联合研发的突破性工作——UniVideo。这项研究首次将统一多模态模型从图像领域成功扩展至视频领域，解决了长期以来视频AI只能处理，而不能真正理解复杂指令的问题。

10/21/2025 3:00:00 AM 肆零柒

AI推动CIO重新规划未来的IT职能

AI推动CIO重新规划未来的IT职能

Indeed发布的《2025年技术人才报告》显示，2025年7月，整体技术岗位招聘数量较2020年初下降了36%，其中高级和管理层IT岗位招聘数量下降19%，普通和初级技术岗位招聘数量下降34%。 Indeed全球客户策略师Linsey . Fagan表示：“我们观察到两股力量在发挥作用：一是技术行业整体降温，二是AI驱动的结构性转变。

10/21/2025 2:00:00 AM Sarah

谷歌新版Gemini马甲被扒! LMArena实测：唯一能看懂表的AI, GPT-5乱答

谷歌新版Gemini马甲被扒! LMArena实测：唯一能看懂表的AI, GPT-5乱答

Gemini 3.0传了这么久，终于还是露出「马脚」了。依然还是LMAreana竞技场，Gemini 3.0的两个「马甲」被扒了出来。 Gemini 3.0 Pro的马甲：lithiumflowGemini 3.0 Flash的马甲：orionmist这已经是「传统艺能」了，每次新模型上线，都要去LMArena上去造势一番。

10/21/2025 1:00:00 AM 新智元

41倍实时交互：LongLive如何突破长视频生成的效率与质量困局

41倍实时交互：LongLive如何突破长视频生成的效率与质量困局

大家好，我是肆〇柒。最近视频生成挺火，刚好看到一个研究——LongLive实时交互式长视频生成框架。这项由NVIDIA、MIT、香港科技大学（广州）、香港大学和清华大学研究团队联合研发的创新技术，成功解决了困扰行业已久的"提示切换断层"难题，让创作者能够在生成过程中实时调整叙事方向，实现真正的"所想即所见"创作体验。

10/21/2025 1:00:00 AM 肆零柒

欧洲零售业大变革！Frasers集团率先集成ChatGPT直接交易

欧洲零售业大变革！Frasers集团率先集成ChatGPT直接交易

欧洲零售业也迎来革命！英国零售巨头 Frasers Group 正式成为首家在其系统中集成 Commercetools 智能代理交易系统的大型零售商。这一创新举措允许旗下品牌如 Sports Direct 的顾客，通过 ChatGPT 等人工智能系统进行购物，并在对话界面中直接完成支付。

10/20/2025 6:07:27 PM AI在线

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉