AI在线 AI在线

给 AI“补补课”:微软砸资源抢救欧洲小语种

AI在线 7 月 22 日消息,微软在巴黎公布了两项重大举措,旨在保护欧洲语言和文化遗产,并进一步巩固欧洲在人工智能时代的竞争地位。 这两项计划是对微软此前“欧洲数字承诺”的延续和升级,该承诺围绕扩展人工智能与云基础设施、强化数据隐私、提升网络韧性,以及支持欧洲整体数字竞争力四大方向展开。 新举措的核心目标,是让欧洲语言和文化资产在互联网上更易获取,并在大语言模型(LLMs)中得到更好的体现。

AI在线 7 月 22 日消息,微软在巴黎公布了两项重大举措,旨在保护欧洲语言和文化遗产,并进一步巩固欧洲在人工智能时代的竞争地位。这两项计划是对微软此前“欧洲数字承诺”的延续和升级,该承诺围绕扩展人工智能与云基础设施、强化数据隐私、提升网络韧性,以及支持欧洲整体数字竞争力四大方向展开。新举措的核心目标,是让欧洲语言和文化资产在互联网上更易获取,并在大语言模型(LLMs)中得到更好的体现。

给 AI“补补课”:微软砸资源抢救欧洲小语种

欧洲拥有 200 多种语言,承载着跨越千年的文化积淀,长期以来为创意表达、商业活动、科技创新和跨境贸易提供支撑。然而,随着网络内容越来越以英语为主导,且大多呈现美式视角,欧洲的商业与文化在这种训练数据失衡的背景下面临被边缘化的风险。微软副董事长兼总裁布拉德・史密斯(Brad Smith)指出:“如果人工智能无法理解欧洲的语言、历史与价值观,它就无法真正服务于欧洲的人民、企业和未来。”

据AI在线了解,失衡的数据现状在模型评测中有直观体现。以开源模型 Llama 3.1 为例,其在希腊语上的得分比英语低 15 分以上,在拉脱维亚语上更是低 25 分以上,呈现出典型的“英语顶尖、希腊语中等、拉脱维亚语垫底”的分层现象,这一模式在主流大语言模型基准测试中都有出现。

给 AI“补补课”:微软砸资源抢救欧洲小语种

为扭转这一局面,微软将在法国斯特拉斯堡的创新中心集中专业力量,依托 Microsoft Azure 平台开发和整理多语言数据集。来自微软开放创新中心(MOIC)与 AI for Good Lab 的团队,将与全欧洲的文化机构、学术伙伴及技术企业协作,重点扩充 10 种使用人数较少的欧洲语言的训练数据,包括爱沙尼亚语、阿尔萨斯语、斯洛伐克语、希腊语和马耳他语等。

与此同时,微软面向公众发布提案征集令,寻找可用于人工智能开发的数字文本、转录稿及其他资料。所有获选项目将获得 Azure 积分,以及工程与技术支援。申请通道将于 2025 年 9 月 1 日在 AI for Good Lab 官网正式上线。

在文化数字化方面,微软宣布今秋将扩展“Culture AI”项目,携手法国文化部与专业遗产数字化机构 Iconem,为拥有 862 年历史的巴黎圣母院打造高精度数字孪生。此前的 Culture AI 已成功完成希腊古奥林匹亚、法国圣米歇尔山、罗马圣彼得大教堂以及诺曼底盟军登陆海滩的数字化保存。

微软表示,这些新举措建立在该公司 40 余年的本地化经验之上:目前 Windows 已支持 90 多种语言,涵盖欧盟所有官方语言以及巴斯克语、加泰罗尼亚语、加利西亚语、卢森堡语和瓦伦西亚语等地区语言;Microsoft 365 的 Office 界面也提供 30 多种欧洲语言版本。通过把欧洲语言和文化资产深度融入 AI 与云平台,微软既希望守护欧洲大陆的珍贵遗产,也致力于为欧洲企业与公民在数字时代赋能。

微软方面强调,上述行动均以“支持性”角色展开:输出开放数据、工具与专业知识,而非任何专有资产。

相关资讯

OpenAI 计划发布开放权重模型,打破“闭源”惯例

据知情人士透露,OpenAI 正在准备推出其首个开放权重模型,最早可能于下周发布。 这款新的语言模型将允许公司和政府在 OpenAI 和微软 Azure 服务器之外的供应商上自行运行,标志着 OpenAI 自2019年发布 GPT-2以来首次发布开放权重模型。 此举也打破了 OpenAI 自2023年与微软签署独家云提供商协议以来,其语言模型一直保持闭源的惯例。
7/11/2025 11:12:56 AM
AI在线

向英伟达发起挑战的Groq是什么来头?简单科普新型AI芯片LPU

这是一篇关于 LPU 的简单科普。在如今的人工智能领域,「GPU is All You Need」已经逐渐成为共识。没有充足的 GPU,连 OpenAI 都不能轻易升级 ChatGPT。不过最近,GPU 的地位也在经受挑战:一家名为 Groq 的初创公司开发出了一种新的 AI 处理器 ——LPU(Language Processing Unit),其推理速度相较于英伟达 GPU 提高了 10 倍,成本却降低到十分之一。在一项展示中,LPU 以每秒超过 100 个词组的惊人速度执行了开源的大型语言模型 —— 拥有 7
3/6/2024 2:33:00 PM
机器之心

联合国教科文组织报告称生成式 AI 加剧性别偏见,呼吁各国政府制定监管框架

联合国教科文组织 7 日发布研究报告称,大语言模型存在性别偏见、种族刻板印象等倾向。报告指出,女性在大模型的描述中,从事家务劳动的频率是男性的 4 倍,且常常与“家”、“家庭”和“孩子”等词汇联系在一起,而男性名字则与“商业”、“管理层”、“薪水”和“职业”等词汇联系在一起。此次联合国教科文组织发起了“大语言模型中对妇女和女童的偏见”的研究,对大语言模型中的“刻板印象”进行深入分析。研究的部分内容是测量人工智能生成文本的多样性,内容涉及不同性别、文化背景的人群,测试对象包含 OpenAI 的 GPT-3.5、GPT
3/8/2024 5:06:00 PM
清源
  • 1