跨境并购交易在2021年达到了创纪录的2.1万亿美元。许多此类交易需在美国和/或其他国家进行反垄断审查。因此,前所未有数量的美国二次请求、加拿大SIR和欧盟委员会第二阶段程序涉及大量不同语言的文件。在大数据时代,多语言数据集不仅是一个麻烦,更是由于大多数并购审查程序快速推进而导致的重大合规威胁。然而,通过合理的工作流程和技术手段,可以在不增加成本或危及合规性的情况下,克服大规模多语言数据集所带来的挑战。本文将探讨一些相关的专业技巧。
1. 搜索词构建
在外语中错误使用搜索词是一种严重错误,因为翻译不准确的搜索词会导致文件范围既缺乏相关性(遗漏了重要文件),又过于宽泛(将大量不相关的文件纳入审查池,从而增加审查成本)。翻译术语失误的原因主要有三个。
首先,由于搜索词列表中的词汇是孤立存在的,缺乏上下文,因此必须通过确保语言学家理解根本争议、相关行业以及文件作者的地区方言来为翻译过程提供背景。例如,“close”这个词可以表示“结束一项交易”、“身体上的接近”、“亲密关系”、“关上门”,在英国甚至可以指居住在某个“Close”。在大多数语言中,“close”的翻译会完全不同,例如,在西班牙语中,它可能变成cerca、íntimo、similar或cerrar。
其次,搜索词翻译常常无法达到预期效果,因为它们未能反映目标外语所需的自然语言表达和变位形式。以“close”为例,即使cerrar传达了“关闭”的正确含义,但如果未能正确变位,该翻译仍然会出错,而这并非易事,因为该西班牙动词有30种不同的变位形式。
最后,搜索词翻译中的语法错误通常是目标失误的来源。电子发现专业人士需要多年学习正确的搜索操作符用法,而语言学家往往对搜索操作符的艺术了解甚少。因此,搜索语法专家与语言学家之间的紧密合作至关重要,以确保逐字构建的语法过程。这对于特权筛选尤为重要,因为不充分的搜索结果可能导致放弃特权的潜在后果。
2. 多语言技术辅助审查(TAR)
为了成功管理针对多语言数据集的技术辅助审查(TAR,亦称预测编码)工作流程,必须将两个组成部分整合到工作流程中:(a)强大的语言识别工具和(b)联合机器学习模型。
A. 强大的语言识别工具
语言识别工具能够自动识别每个文档内的语言。这包括当单个文档包含多种语言时的情况——例如,作者故意切换语言,或主体是某种语言,但其他信息(如签名区)则包含另一种语言的元素。这些工具还可以确定每个文档内各语言的百分比分布。
在开始TAR工作流程之前进行语言识别,对于制定其余多语言TAR协议的基础至关重要。不过,由于语言识别平台的准确性差异较大(高端工具的准确率约为85%),因此选择适合项目的“合适”语言识别工具也非常重要——例如,针对韩语项目使用擅长CJK语言的工具,针对西班牙语项目则使用擅长拉丁语言的工具。
在目标数据集中运行语言识别,可以大致估算每种语言的文件数量。这些数量将决定是否在特定语言中存在一定的最低文件阈值,以合理化使用TAR,而不是仅仅进行线性的手动审查。这在并购审查程序中特别重要,因为在全球市场影响的调查范围内,某些小型外语集合的存在可能并不足以启动全面的TAR过程。
B. 联合机器学习模型
联合机器学习模型意味着对于TAR项目中的每种目标语言,需要一套单独的“训练集”文件,以训练每种语言的不同TAR引擎或“模型”——即英语文档的英语模型、日语文档的日语模型等。这无论是在使用TAR 1.0(简单主动学习)还是TAR 2.0(持续主动学习)时都是成立的。
上一篇:如何创造更具吸引力的培训材料以留住员工
下一篇:金融科技的未来:如何促进金融包容性
在全球化的推动下,专利保护已成为企业竞争力的重要组成部分。然而,跨国专利申请的复杂性和翻译需求使得专利本地化成为企业面临的关键挑战
一篇文章的写成和翻译,都受到文化的影响,这是不同文化之间行文差别的根本原因。不论是写文章,还是翻译文章的过程中,都会受到由于文化差
随着全球游戏市场的竞争日益激烈,国内游戏企业越来越注重海外市场的布局。国译翻译作为领先的语言服务提供商,凭借多年的行业经验与专业能