阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

作者：问舟 2025-01-10 11:03

通义万相 2.1 还支持复杂运镜，可还原碰撞、反弹、切割、挤压等真实世界的物理规律，例如雨滴落在伞上会溅起水花。

感谢阿里旗下通义万相宣布推出 2.1 版本模型升级，视频生成、图像生成两大能力均有显著提升。

在视频生成方面，通义万相 2.1 通过自研的高效 VAE 和 DiT 架构增强了时空上下文建模能力，支持无限长 1080P 视频的高效编解码，首次实现了中文文字视频生成功能，登上 VBench 榜单第一。

据介绍，通义万相 2.1 支持中英文视频，都可以一键生成艺术字，还提供多种视频特效选项，以增强视觉表现力，例如过渡、粒子效果、模拟等等。

阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

▲ Prompt：以红色新年宣纸为背景，出现一滴水墨，晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然，随着晕染的进行，水墨在纸上呈现“福”字，墨色从深到浅过渡，呈现出独特的东方韵味。背景高级简洁，杂志摄影感。

AI在线注意到，通义万相 2.1 还支持复杂运镜，可还原碰撞、反弹、切割、挤压等真实世界的物理规律，例如雨滴落在伞上会溅起水花。

阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

▲ Prompt：一对穿着正式晚礼服的夫妇在回家途中遭遇大雨，他们撑着黑色雨伞。平拍镜头下，男士穿着黑色西装，女士穿着白色长裙。他们在雨中缓缓行走，雨水沿着伞面滴落。镜头跟随他们的步伐平稳移动，展现出他们在雨中的优雅姿态。

图片生成方面，通义万相 2.1 支持文生组图，采用了 IC-LoRA 图像生成训练方法，利用 DiT 架构，增强文本到图像的上下文能力；对多张图像进行拼接与联合描述即可实现关联图像间的组合生成，并保持特征稳定连续。

阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

▲ Prompt：浪漫的公园里，一对青年男女在温馨的拥抱交谈

AI 发现16万种新RNA病毒成果登上《Cell》后，我们和阿里云算法专家贺勇聊了聊

近期，AI for Science 领域的惊喜不断，持续在物理、化学、生物领域开花结果。不仅诺贝尔物理和化学奖双双颁给 AI 领域的科学家，阿里云与中山大学的科研也带来了RNA病毒寻找的突破，国际顶级学术期刊《Cell》收录了这一研究论文。《基于人工智能探索和记录隐藏的RNA病毒世界》论文提出深度学习模型"LucaProt"，用于快速准确判别RNA病毒，颠覆传统病毒发现方法。

10/15/2024 3:18:00 PM 王轶群

阿里通义万相 2.1 模型宣布升级：首次实现中文文字视频生成功能，支持无限长 1080P 视频的高效编解码

相关资讯

AI 发现16万种新RNA病毒成果登上《Cell》后，我们和阿里云算法专家贺勇聊了聊

首次实现中文文字生成，消息称阿里通义万相 2.1 视频生成模型今晚开源

业界首个，阿里通义万相“首尾帧生视频模型”开源