资讯列表
微软开源视频Tokenizer新SOTA!显著优于Cosmos Tokenizer和Open-Sora
Sora、Genie等模型会都用到的Tokenizer,微软下手了——开源了一套全能的Video Tokenizer,名为VidTok。 Sora等视频生成模型工作中,都会利用Tokenizer将原始的高维视频数据(如图像和视频帧)转换为更为紧凑的视觉Token,再以视觉Token为目标训练生成模型。 而最新的VidTok,在连续和离散、不同压缩率等多种设定下,各项指标均显著优于SOTA模型。
12/26/2024 11:48:27 AM
英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了
英伟达老黄,成了今年的圣诞老黄。 AI芯片大礼包刚刚曝光:GPU新核弹B300,以及附带CPU的超级芯片GB300。 高算力,在产品层面上相比B200在FLOPS上提高50%大显存,从192GB提升到288GB,也是提高了50%。
12/26/2024 11:45:48 AM
o3挑战ARC-AGI,遇见大网格就懵圈?英国工程师:ARC-AGI不适合大模型
o3在超难推理任务ARC-AGI上的成绩,属实给人类带来了不少震撼。 但有人专门研究了它不会做的题之后,有了更有趣的发现——o3之所以不会做这些题,原因可能不是因为太难,而是题目的规模太大了。 来自英国的ML工程师Mikel Bober-Irizar(不妨叫他米哥),对ARC题目进行了细致观察。
12/26/2024 11:42:56 AM
消息称小米正搭建 GPU 万卡集群,将大力投入 AI 大模型
知情人士表示,该计划已经施行数月之久,雷军在其中扮演了重要的领导角色。“在AI硬件这件事情上,最核心的是手机而不是眼镜,小米在这个领域不‘all in’是不可能的。”
12/26/2024 11:10:38 AM
清源
广汽集团发布第三代具身智能人形机器人 GoMate,预计 2026 年量产
在今日举行的 2024 年中国机器人网年会上,广汽集团正式发布了其第三代具身智能人形机器人 ——GoMate。
12/26/2024 10:42:16 AM
远洋
超节点算力集群创新联合体成立:中国移动、浪潮、阿里云等参与,打造 GPU 卡间互联体系
“超节点算力集群创新联合体”的 GPU 卡间互联是基于中国移动原创的 OISA(全向智感互联)协议所构建,OISA 旨在打造一个高效、智能、灵活且开放的 GPU 卡间互联体系,该架构致力于支持大模型训练、推理、高性能计算等数据密集型的 AI 应用。
12/26/2024 10:12:45 AM
汪淼
Chatbot 不是“万金油”:企业级生成式 AI 如何真正创造价值
许多组织对生成式 AI 应用常常抱有过高的期望。 他们一开始对 ChatGPT 或 Microsoft Co-Pilot 这样的技术感到兴奋,阅读了一些关于 AI 如何提升业务效率的文章后,便急于在各种场景中部署聊天机器人。 但当实际效果不如预期时,他们往往会感到失望。
12/26/2024 9:58:18 AM
追求卓越的
Anthropic 联合创始人:AI 尚未发展至极限,2025 年将继续高速狂飙
Anthropic 联合创始人杰克・克拉克(Jack Clark)表示,得益于传统模型的规模化扩展和新模型、新方法的百花争鸣,2025 年 AI 领域继续在高速路上狂飙。
12/26/2024 9:24:56 AM
故渊
港科技最新DrivingRecon:可泛化自动驾驶4D重建新SOTA!
写在前面&笔者的个人理解从这一两年发表的论文数量可以看出,自动驾驶街景的重建与仿真备受关注,由此构建的自动驾驶仿真器对corner case的生成以及端到端模型的闭环评估/测试都非常重要,本次分享的是一篇关于自动驾驶场景4D重建的工作DrivingRecon。 论文链接: : ,比较具有代表性的是StreetGaussian,OmniRe这一类借助3D bbox将静态背景和动态物体解耦的框架,后来又出现了使用4D NeRF学习动态信息的方法,虽然取得了不错的效果,但这些方法都有一个共性,就是需要不断的训练来进行重建,即每个场景训练一个模型,非常耗时。 因此作者提出了一种可泛化的自动驾驶4D重建模型DrivingRecon。
12/26/2024 9:17:27 AM
自动驾驶之心
消息称微软及阿里“老兵”胡云华加入智谱,将任“智谱清言”负责人
据 36 氪“智能涌现”今日报道,前微软亚洲研究院研究员、阿里达摩院资深技术专家、支付宝中国首席数据官胡云华现已加入大模型独角兽公司智谱,并担任 C 端应用“智谱清言”负责人。
12/26/2024 9:16:29 AM
清源
腾讯推出 DRT-o1 系列 AI 模型:长链思考推理实现文学翻译“信达雅”
腾讯研究院最新推出了 DRT-o1 系列模型,主要通过长思维链(long chain-of-thought,简称 CoT),更能理解比喻和隐喻等,从而提高文学作品的翻译质量。
12/26/2024 9:07:32 AM
故渊
马斯克:明年底 AI 智力将超越单个人类,2027/28 年可能超越所有人类
马斯克在自家的X平台上写道:“AI在 2025 年底前超越单个人的智力,在 2027 到 2028 年超越所有人类智力的可能性正在变得越来越大。而到 2030 年,人工智能超越所有人类智力的概率接近 100%。”
12/26/2024 9:04:28 AM
清源
阶跃星辰发布 Step-1X-Medium 模型:AI 图片生成提速 30%、支持图生图垫图玩法、升级中国风创作
“阶跃星辰”官方公众号昨日(12 月 25 日)发布博文,宣布推出 Step-1X-Medium 增强 AI 模型,显著提升生成速度、理解能力、细节质感以及创作功能,目标成为创作者的得力助手。
12/26/2024 8:32:23 AM
故渊
OpenAI 阿尔特曼在线征集“新年愿望”,网友期待新增家庭账户、优化语音聊天等
不少网友开始在评论区许愿或建言献策,而阿尔特曼也对部分建议给出了回复。
12/26/2024 8:30:50 AM
清源
AI美女图成了过去式,“巨物宝可梦”才是新的流量密码
往期AI干货:. 30秒完美复刻你的声音,这就是当今最强的中文AI语音克隆! 往期作者干货:中文,在 AI 世界,好像突然一夜崛起了。
12/26/2024 8:18:16 AM
数字生命卡兹克
人工智能中的智能体内存:持久内存是如何重新定义大语言模型应用程序的
译者 | 张哲刚审校 | 重楼人工智能(AI) 从根本上改变了我们的生活、工作以及通信方式。 GPT-4、BERT、Llama 等大语言模型 (LLM) 在对话式人工智能方面取得了显著进步,不但响应迅速,而且做到了拟人化。 即便如此,这些系统仍然普遍存在一个致命缺陷,那就是无法在单个会话之外保留上下文信息。
12/26/2024 8:00:00 AM
张哲刚
研究称 ChatGPT 搜索功能存在被操纵风险:可被恶意网站诱导输出不可信内容
ChatGPT被测试如何应对包含隐藏内容的网页摘要。这些隐藏内容可能包括来自第三方的指令,干扰ChatGPT的回应,或是包含旨在影响回应的内容,如大量隐藏的文字推销某个产品或服务的优点。
12/26/2024 7:03:57 AM
清源
网页多模态建模思考
1.综述网页本质上是一种超文本,一般由超文本标记语言来定义(例如HTML)。 HTML是一种基础技术,常与CSS、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面 。 网页浏览器内核通过解释HTML文件,通过视觉引擎将其渲染成可视化网页。
12/26/2024 1:20:53 AM
百度Geek说