AI在线 AI在线

字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

AI字幕总是慢半拍,质量和延迟难以平衡是业界老问题了。 为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。 在70亿参数(7B)规模上实现SOTA。

AI字幕总是慢半拍,质量和延迟难以平衡是业界老问题了。

为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。

在70亿参数(7B)规模上实现SOTA。

图片

实验结果显示,SeqPO-SiMT的翻译质量不仅优于监督微调(SFT)的离线模型及LLaMA-3-8B,其表现甚至能媲美乃至超越Qwen-2.5-7B的离线翻译水平。

方法:SeqPO-SiMT序贯策略优化

针对以上难点,研究团队提出SeqPO-SiMT框架。其核心思想是将同声传译任务建模为一个序贯决策问题,综合评估整个翻译流程的翻译质量和延迟,并对整个决策序贯进行端到端的优化。

该方法的主要特点是:它不再孤立地评估每一步决策的好坏,而是将一整句话的翻译过程视为一个整体,即形成一个完整决策序贯,更符合人类对同传的评估过程。

同声传译采样阶段

该框架使用一个大语言模型(LLM)充当策略模型图片,在每个时间步t,模型会接收新的源语言文本块图片,并基于已有的所有源文本图片和之前的翻译历史图片,来生成当前的翻译块图片

这个决策过程可以被形式化地表示为:图片

该框架的一个关键灵活性在于,如果模型决定等待更多上下文,输出的图片可以为空,其长度完全由策略模型图片自行决定。

图片

优化阶段

奖励函数:对于一个batch内的第i个样本,系统会通过一个在最终步骤T给予的融合奖励图片来评估整个过程的优劣。这个奖励同时评估翻译质量(Quality)和延迟(Latency)。

具体而言,首先计算出原始的质量分图片和延迟分图片,然后对两者进行归一化处理以统一量纲得到图片图片,最终的奖励被定义为:图片

其中,图片是一个超参数,用于权衡质量与延迟的重要性。

优化目标:模型的最终优化目标最大化期望奖励图片,同时为了保证训练的稳定性,目标函数中还引入了KL散度作为约束项,防止策略模型图片与参考模型图片偏离过远。

这个结合最终奖励和稳定性约束的优化过程,使得模型能够端到端地学会一个兼顾翻译质量与延迟的最优策略

图片

图片

结果与分析:翻译质量媲美Qwen-2.5-7B离线翻译水平

研究团队在多个公开的英汉互译测试集上进行了实验,并与多种现有同传模型进行对比。实验结果显示:在低延迟水平下,SeqPO-SiMT框架生成的译文质量相较于基线模型有明显提升。

图片

与多个高性能模型的离线翻译结果进行对比,结果显示,SeqPO-SiMT的翻译质量不仅优于监督微调(SFT)的离线模型及LLaMA-3-8B,其表现甚至能媲美乃至超越Qwen-2.5-7B的离线翻译水平。这表明该方法在70亿参数(7B)规模上实现了业界顶尖(SoTA)的性能

图片

SeqPO-SiMT为解决同声传译中的“质量-延迟”权衡问题提供了一个新的视角,它强调了对决策“序贯”进行整体优化的重要性。该方法对于需要进行实时、连续决策的自然语言处理任务具有一定的参考意义,并为未来开发更高效、更智能的同声传译系统提供了有价值的探索。

论文链接:https://arxiv.org/pdf/2505.20622

相关资讯

易用性对齐 vLLM,推理效率提升超200%,这款国产加速框架什么来头?

一、行业背景2022 年 10 月,ChatGPT 的问世引爆了以大语言模型为代表的的 AI 浪潮,全球科技企业纷纷加入大语言模型的军备竞赛,大语言模型的数量、参数规模及计算需求呈指数级提升。大语言模型(Large Language Model,简称 LLM 大模型)指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大模型通常包含百亿至万亿个参数,训练时需要处理数万亿个 Token,这对显卡等算力提出了极高的要求,也带来了能源消耗的激增。据斯坦福人工智能研究所发布的《2023 年 AI
9/18/2024 10:37:00 AM
新闻助手

击败25个分子设计算法,佐治亚理工、多伦多大学、康奈尔提出大语言模型MOLLEO

作者 | 佐治亚理工学院王浩瑞编辑 | ScienceAI分子发现作为优化问题,因其优化目标可能不可微分而带来显著的计算挑战。进化算法(EAs)常用于优化分子发现中的黑箱目标,通过随机突变和交叉来遍历化学空间,但这会导致大量昂贵的目标评估。在这项工作中,佐治亚理工学院、多伦多大学和康奈尔大学研究者合作提出了分子语言增强进化优化(MOLLEO),通过将拥有化学知识的预训练大语言模型(LLMs)整合到进化算法中,显著改善了进化算法的分子优化能力。该研究以《Efficient Evolutionary Search Ov
7/1/2024 4:14:00 PM
ScienceAI

月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用

算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现了Muon方法的Scaling Law,做出改进并证明了Muon对更大的模型同样适用。 在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。
2/24/2025 9:15:00 AM
量子位
  • 1