AI在线 AI在线

毁誉参半的AI重建濒危语言之路

译者 | 陈峻审校 | 重楼众所周知,过去那些曾经定义和描述了灿烂文化的语言,如今可能只能留存于书面记录、片段影像、以及少数传颂者的记忆中。 而人类历史的每一次更迭,都会导致语言信息的此消彼长,文化知识的重塑。 目前,人工智能(AI)正在被用于研究手稿、音频档案和铭文,以重建失传的语法、词汇和发音。

毁誉参半的AI重建濒危语言之路

译者 | 陈峻

审校 | 重楼

众所周知,过去那些曾经定义和描述了灿烂文化的语言,如今可能只能留存于书面记录、片段影像、以及少数传颂者的记忆中。而人类历史的每一次更迭,都会导致语言信息的此消彼长,文化知识的重塑。

目前,人工智能(AI)正在被用于研究手稿、音频档案和铭文,以重建失传的语法、词汇和发音。其支持者一致认为这是一条复兴之路,能够为人类社区提供一种与语言遗产重新连接,也可能会产生看似准确,实则不实用、甚至无意义的语言。甚至有人认为,这种机械的静态记录,会让语言的消失不可逆转。

全球化时代的语言消失

现如今,语言多样性的下降速度比历史上任何其他时刻都要快。联合国教科文组织曾估算:世界上的7000种语言中,有近40%已濒临灭绝。算下来,大约每两周就有一种语言消失。这种消失不仅仅是系统性、交流层面的消失,也伴随着与之相关的观点、历史和专业知识的消失。诚然,传统的文档、录音、口语故事、以及语法解说图本都可以延续语言,但是这往往比较慢,也就导致了许多语言在被完全记录下来之前就消失了。

然而,AI正在改变这种速度。由其加持的高级工具可以比传统的方法,更快地处理稀有的音频,识别内在的模式,进而重建那些不完整的语言系统。虽然这为留存语言提供了新的方法,但是如果只关注那些没有社区参与、或文化基础的数据保存,结果很可能只是一个虽然精确、但与日常使用完全脱节的语言档案。因此,在现代化世界中,保留语言遗产需要研究人员、技术专家和人群社区之间的通力合作,以确保语言的重建既准确又具有文化内涵。

AI重建和复兴语言

近年来,AI已经从一种研究工具演变成为了语言重建的核心驱动力。机器学习模型,特别是深度神经网络,可以处理那些曾经需要付出几十年学术努力的任务。此类系统可以分析大量手稿、铭文和音频记录的存储库,发现人类研究人员可能无法注意到的模式。

其中,失传语言重建的技术通常会结合两个互补的阶段:第1阶段是使用模式识别模型,来检测留存记录中的语法、句法和词汇中的重复结构。第2阶段是使用应用生成系统,如大语言模型(LLM),来补足第1阶段。同时,第1阶段的发现也可以指导第2阶段,并允许神经模型提出缺失的单词、短语甚至语音模式。通过利用相关语言和部分文档的培训,这些系统可以生成对应语言和词句的合理版本。

目前,已有若干真实项目展示了此类方法在实践中是如何运作的。例如:由AI辅助的研究,以更高的统计准确性模拟了原始印欧语的词根,从不完整的手稿中重建了古希腊语音,并为濒危语言创造了现实的语音合成,让其对应的人群社区听到几十年来从未听过的发音。

然而,语言重建也面临着技术和文化方面的挑战。比如,有限的或质量差的数据,可能会导致模型产生幻想,从而生成从未存在过的模式。当然,即使统计准确率很高,这些项目也并不总能反映文化真实性。这就是为什么许多项目需要将算法的输出,与语言学家、人类学家、以及最重要的是与母语人士的专业知识相结合的原因。

同时,自我监督学习等新技术进一步增加了此方面的能力。它们使用的模型可以在不依赖并行翻译的情况下,从单一语言数据中学习到结构规则,使其更适合那些资源较少的语言。它们在协作环境中被使用时,既能保证速度,又能提供规模,同时还可以保持文化背景的完整性。

可见,只有当技术与人类合作时,基于AI的重建才会取得成功。也就是说,AI只有与人类社区专家相辅相成,而非单纯取代时,才能产生更好的结果。无声的记录才可以再次变成鲜活的口语。

数字语言保护从静态档案到互动复兴的演变

在AI之前,保护濒危和灭绝语言的努力主要依赖于静态的数字档案。Rosetta项目和濒危语言档案等项目已收集了大量字典、手稿、录音和文化文物。这些收藏品为学者和社区提供了宝贵的语言遗产。然而,这些资源在绝大程度上是一种被动式的。学习者只能主动查找单词或听录音,但积极使用或互动练习语言的机会十分有限。这也就限制了他们作为活体形式的语言复兴。

相反,AI通过引入互动性和动态参与的形式,改变了这种情况。现代AI工具,包括聊天机器人、语音助手和翻译应用,可以使用濒危或已灭绝的语言与学习者进行说话、倾听和回应。这些方式使得语言能够超越被动的参考材料,通过互动体验成为语言使用者日常生活、教育和文化表达的一部分。

所以说,AI的主要优势在于翻译和重建。而且,在缺少完整的字典或文本时,AI模型会主动分析相关语言来填补空缺。例如,如果一种语言的词汇量损失了30%,AI则可以使用类似的语言或历史记录的信息,来建议可能的词汇。当然,AI也可以重建丢失语言的声音。通过将古代文本的语音细节与现代语言知识相结合,那些由AI生成的声音,如今已能“说出”苏美尔语、梵语和古北欧语等语言。这使得学习者和研究人员有机会能够听到几个世纪以来一直沉寂与失传的语言。

AI驱动的语言复兴面临的挑战和道德考虑

AI为复兴濒危和已灭绝的语言提供了新的方法。尽管如此,整个过程中仍然充满了各种挑战。有时,AI只能输出最可能的近似表达,而无法被母语人士所验证。有时,由AI模型产生的发音或用法虽然似乎合理,但很可能在真实的历史或文化上并不准确。这都凸显了技术专家、语言学家和语言社区成员之间密切合作的必要性。这样的协作关系必须确保语言复兴的过程既尊重文化遗产又保留历史真相。下面,我们来具体讨论几类挑战:

  • 由AI驱动的复兴可能会创造一种仅存在于数字世界的语言。毕竟语言不仅仅是词汇和语法,它也存在于日常使用、社交习惯、以及文化实践中。如果一种语言是由AI所重建,但没有人会经常使用的话,它就会成为一件静态的博物馆文物。也就是说,它仅仅在技术上得到了保留,但在社会上并不活跃。
  • 偏见是另一个问题。训练数据通常来自殖民时代的档案或外部来源。这些可能反映了与真实人群社区截然不同的观点。而如果AI从这种有偏见的数据中学习,那么很可能会重现那些扭曲的语言版本,进而可能歪曲人群社区的真实遗产和认同。
  • 过度依赖AI工具也可能是一个问题。如果人群社区完全依赖AI来进行语言教学和维护,那么他们可能会失去通过人与人之间的互动,来传递语言意图的动力。毕竟,口头传播和社区参与对于语言的生存都是至关重要的。AI应该辅助与支持这样的流程,而不是取代它们。
  • 围绕所有权和控制权的道德问题也不容忽视。许多土著和少数民族群体将语言视为其文化传承的核心部分。他们担心大型科技公司可能会通过AI生成语言的内容与方式获取所有权,特别是如果其语言训练本身就是基于他们长辈的录制。因此,为了保护社区的权利,语言复兴的努力必须从一开始就让当地人参与进来。项目开展的过程中也应该征得群体的明确同意、数据主权、以及文化敏感性。AI应充当合作伙伴与协助角色,而绝不可取代人类做决定。

让我们来看两个例子:在新西兰,AI工具正在帮助为毛利语创建语言资源。所有的内容都需要经过毛利语言学家和教育工作者的审查和批准。同样,在加拿大,AI也在支持因纽特语和克里语等土著语言。他们的社区使用AI来开发自己的数字学习工具,毕竟语言复兴的核心仍然是人类教学和文化实践。

可见,综合利用AI的处理能力,以及母语人士的文化知识和智慧,将有助于保持语言社区日常生活中的活力。

小结

复兴濒危或已灭绝的语言是一项复杂的任务。AI通过提供强大的工具,来加快重建和创建交互式的资源。然而,仅靠技术并不能完全复兴一种语言。真正的复兴取决于母语人士、人类社区和文化习俗。而这些习俗恰恰能每天保持语言的活力。

同时,AI必须作为一个支持性的合作伙伴,而非替代者,以确保语言的复兴具有真正的意义和文化价值。可以说正是因为有了技术专家、语言学家和社区之间的合作,语言复兴过程的准确性、真实性和对遗产的尊重才得以平衡。也正是因为这样,我们才能突破静态档案的文字保存形式,恢复出鲜活的口语,将我们与过去相联系,也丰富我们的未来。

译者介绍

陈峻(Julian Chen),51CTO社区编辑,具有十多年的IT项目实施经验,善于对内外部资源与风险实施管控,专注传播网络与信息安全知识与经验。

原文标题:AI’s Linguistic Ghosts: Can Machines Revive Dead Languages or Bury Them Forever?,作者:Dr. Assad Abbas

相关资讯

DeepSeek-V3深入解读!

上一篇文章对DeepSeek-R1进行了详细的介绍,今天来看看DeepSeek-R1的基座模型DeepSeek-V3。 项目地址::现有的开源模型在性能和训练成本之间往往难以达到理想的平衡。 一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。
2/19/2025 10:49:30 AM
Glodma

Seed Research | 形式化数学推理新SOTA!BFS-Prover模型最新开源

近日,豆包大模型团队提出 BFS-Prover,一个基于大语言模型 (LLM) 和最优先树搜索 (BFS) 的高效自动形式化定理证明系统。 团队通过该成果发现,简单的 BFS 方法经过系统优化后,可在大规模定理证明任务中展现卓越性能与效率,无需复杂的蒙特卡洛树搜索和价值函数。 在数学定理证明基准 MiniF2F 测试集上,BFS-Prover 取得了 72.95% 准确率,超越此前所有方法。
3/4/2025 9:00:00 AM
Seed Research

模型越新幻觉越重!AI幻觉扣住产业发展命脉

自诞生以来,人工智能大模型始终被“幻觉”问题困扰。 这里的“幻觉”,指的是大语言模型会将虚构信息当作真实事实输出。 实际上,“幻觉”这一表述相当委婉,它实则暴露出AI的核心缺陷——当前的大语言模型尚未达到真正意义上的智能水平。
5/8/2025 6:00:00 AM
小刀
  • 1