资讯列表
告别「偏科」,UniVid实现视频理解与生成一体化
在视频生成与理解的赛道上,常常见到分头发力的模型:有的专注做视频生成,有的专注做视频理解(如问答、分类、检索等)。 而最近,一个开源项目 UniVid,提出了一个「融合」方向:把理解 生成融为一体 —— 他们希望用一个统一的模型,兼顾「看懂视频」 「生成视频」的能力。 这就像把「看图识物」和「画图创作」两件事,交给同一个大脑去做:理解一段文字 理解已有视频内容 → 再「画」出新的、连贯的视频 —— 这在技术上挑战极大。
马斯克:Grok5迈向通用人工智能的机会上升至10%
近日,埃隆・马斯克在社交平台 X 上透露,他对即将发布的 xAI 公司新一代大型语言模型 Grok5的预期变得愈加乐观。 他表示,Grok5实现通用人工智能(AGI)的概率已达到10%,并且这一可能性还在持续上升。 马斯克的言论引发了广泛的关注,因为目前全球尚无任何公司真正实现 AGI,而众多企业正为这一目标而努力。
OpenAI强化Sora 2保护政策,确保艺人声音与肖像权不被侵犯
OpenAI于10月20日宣布了一项重大的更新,旨在保护艺术家的声音和肖像权。 这项新措施是在与美国演员工会(SAG-AFTRA)、知名演员布莱恩・克兰斯顿及多家艺能公司的合作下推出的,旨在加强对其新产品 Sora2的监管。 Sora2是 OpenAI 推出的一款能够模拟声音与形象的技术,但随着其应用范围的扩大,涉及的伦理和法律问题也日益凸显。
阿里夸克“C计划”曝光:目标直指对话式AI应用,或剑指字节“豆包”
据新浪科技报道, 阿里巴巴旗下AI旗舰应用夸克正秘密推进一项代号为“C计划”的重磅AI业务。 该计划由夸克核心团队主导,并有多位通义实验室的高级别成员参与,目标直指对话式AI应用布局,且首个阶段性成果预计将于近日落地。 多位消息人士透露,“C计划”是一项需要长期投入、且高度依赖模型技术突破的产品,目前即将浮出水面的仅为阶段性成果,显示出阿里在AI应用赛道长期深耕的决心。
LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统
不再依赖人工设计,让模型真正学会管理记忆。 来自来自加州大学圣地亚哥分校、斯坦福大学的研究人员提出了一个创新的强化学习框架——Mem-α,用于训练LLM智能体自主管理复杂的记忆系统。 在实际应用中,仅仅依靠prompts和instructions往往不足以覆盖所有场景:模型经常会遇到不知道如何更新记忆的情况,尤其是当记忆系统像MIRIX那样变得复杂时。
OpenAI也缺卡!僧多粥少,自曝内部抢卡抢到发疯
OpenAI正面临绝对的算力稀缺。 总裁Greg Brockman自曝内部算力资源争夺严重,已经到了用痛苦与煎熬来形容的程度。 说起来也不意外,现在AI领域但凡想搞点新东西,算力都是绕不开的坎儿。
宇树最新机器人发布:1米8大高个,能跳舞会功夫,就是颜值一言难尽
宇树第四款人形机器人,Unitree H2转着圈圈来了! 这款新品身高180厘米,体重70公斤,比同身高的H1机器人重了足足23公斤。 宽肩窄腰,意味着电池和控制板都必须塞进它小小的胸膛。
Suno V5正式封神!教你零基础一键生成爆款AI音乐
三天前的夜里,我正在刷抖音,刷到一个用 R&B 风格唱的《一路向北》当时就给我听麻了。 我当时就是“早知道,还是原道”那个图片表情,太震撼了,而且音频非常清晰我都没想过是 AI 唱的。 然后我就去作者的主页看,又看到了《青花瓷》没想到下面写着 Suno 5 。
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
DeepSeek最新开源的模型,已经被硅谷夸疯了! 因为实在太DeepSeek了。 3B规模、指数级效能变革、大道至简,甚至被认为把谷歌Gemini严防死守的商业机密开源了。
联邦学习:无需共享原始数据训练模型
译者 | 李睿审校 | 重楼随着机器学习对训练数据的需求与日俱增,传统的集中式训练方式在隐私要求、运营效率低下以及消费者日益增长的怀疑态度下不堪重负。 由于道德和法律限制,医疗记录或支付历史等责任信息已经难以被简单地集中采集与处理。 在此背景下,联邦学习提供了一种截然不同的解决方案:它摒弃了“将数据传输至模型”的传统思路,转而采用“将模型推送至数据所在端”的创新模式。
AI正在改写地图APP!这一次轮到谷歌了
谷歌这回整了个大活儿! 即日起,所有开发者可通过Gemini API调用谷歌地图工具,以便轻松将位置感知功能整合进其应用中。 简单粗暴地说,现在但凡你的应用跟“位置”沾边,Gemini都能立刻调用谷歌地图那套庞大的地理数据库——2.5亿个地点全给它接通了。
智能体时代的三重奏:身份验证、安全防护与AI驱动型数据治理的融合演进
如今,在数字世界的闲聊圈子里,有一条不成文的新规矩:千万别问别人关于其“智能体年龄”的问题。 试图通过大语言模型逗乐取笑,这招可不怎么高明,而当下正进行得如火如荼、收获颇丰的,是一场抢占身份安全管理市场的行动。 随着智能体的广泛应用,这一市场正迎来爆发式增长。
从重复抽卡到脑洞大开?一句话让AI更聪明!
只要你平时用多了AI,可能会发现一个问题? 比如你让AI帮优化个文章,它总是动不动就给你用上冒号(:)跟破折号(——),文字间还特别喜欢用成语,喜欢用自问自答,还喜欢用序号(1,2,3,4...),有时候套话还挺多,甚至有时候当你反复抽卡时结果却越来越相似。 明明是不同的,有时甚至是同一个模型换个会话,问同一个开放性问题,得到的答案却总是很相似。
视频AI的"统一时刻":UniVideo如何实现理解、生成与编辑的三位一体
大家好,我是肆〇柒。 今天阅读一份由加拿大滑铁卢大学(University of Waterloo)与快手科技可灵团队联合研发的突破性工作——UniVideo。 这项研究首次将统一多模态模型从图像领域成功扩展至视频领域,解决了长期以来视频AI只能处理,而不能真正理解复杂指令的问题。
AI推动CIO重新规划未来的IT职能
Indeed发布的《2025年技术人才报告》显示,2025年7月,整体技术岗位招聘数量较2020年初下降了36%,其中高级和管理层IT岗位招聘数量下降19%,普通和初级技术岗位招聘数量下降34%。 Indeed全球客户策略师Linsey . Fagan表示:“我们观察到两股力量在发挥作用:一是技术行业整体降温,二是AI驱动的结构性转变。
谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答
Gemini 3.0传了这么久,终于还是露出「马脚」了。 依然还是LMAreana竞技场,Gemini 3.0的两个「马甲」被扒了出来。 Gemini 3.0 Pro的马甲:lithiumflowGemini 3.0 Flash的马甲:orionmist这已经是「传统艺能」了,每次新模型上线,都要去LMArena上去造势一番。
41倍实时交互:LongLive如何突破长视频生成的效率与质量困局
大家好,我是肆〇柒。 最近视频生成挺火,刚好看到一个研究——LongLive实时交互式长视频生成框架。 这项由NVIDIA、MIT、香港科技大学(广州)、香港大学和清华大学研究团队联合研发的创新技术,成功解决了困扰行业已久的"提示切换断层"难题,让创作者能够在生成过程中实时调整叙事方向,实现真正的"所想即所见"创作体验。
欧洲零售业大变革!Frasers集团率先集成ChatGPT直接交易
欧洲零售业也迎来革命! 英国零售巨头 Frasers Group 正式成为首家在其系统中集成 Commercetools 智能代理交易系统的大型零售商。 这一创新举措允许旗下品牌如 Sports Direct 的顾客,通过 ChatGPT 等人工智能系统进行购物,并在对话界面中直接完成支付。