跨境并购交易在2021年达到了创纪录的2.1万亿美元。许多此类交易需在美国和/或其他国家进行反垄断审查。因此,前所未有数量的美国二次请求、加拿大SIR和欧盟委员会第二阶段程序涉及大量不同语言的文件。在大数据时代,多语言数据集不仅是一个麻烦,更是由于大多数并购审查程序快速推进而导致的重大合规威胁。然而,通过合理的工作流程和技术手段,可以在不增加成本或危及合规性的情况下,克服大规模多语言数据集所带来的挑战。本文将探讨一些相关的专业技巧。
1. 搜索词构建
在外语中错误使用搜索词是一种严重错误,因为翻译不准确的搜索词会导致文件范围既缺乏相关性(遗漏了重要文件),又过于宽泛(将大量不相关的文件纳入审查池,从而增加审查成本)。翻译术语失误的原因主要有三个。
首先,由于搜索词列表中的词汇是孤立存在的,缺乏上下文,因此必须通过确保语言学家理解根本争议、相关行业以及文件作者的地区方言来为翻译过程提供背景。例如,“close”这个词可以表示“结束一项交易”、“身体上的接近”、“亲密关系”、“关上门”,在英国甚至可以指居住在某个“Close”。在大多数语言中,“close”的翻译会完全不同,例如,在西班牙语中,它可能变成cerca、íntimo、similar或cerrar。
其次,搜索词翻译常常无法达到预期效果,因为它们未能反映目标外语所需的自然语言表达和变位形式。以“close”为例,即使cerrar传达了“关闭”的正确含义,但如果未能正确变位,该翻译仍然会出错,而这并非易事,因为该西班牙动词有30种不同的变位形式。
最后,搜索词翻译中的语法错误通常是目标失误的来源。电子发现专业人士需要多年学习正确的搜索操作符用法,而语言学家往往对搜索操作符的艺术了解甚少。因此,搜索语法专家与语言学家之间的紧密合作至关重要,以确保逐字构建的语法过程。这对于特权筛选尤为重要,因为不充分的搜索结果可能导致放弃特权的潜在后果。
2. 多语言技术辅助审查(TAR)
为了成功管理针对多语言数据集的技术辅助审查(TAR,亦称预测编码)工作流程,必须将两个组成部分整合到工作流程中:(a)强大的语言识别工具和(b)联合机器学习模型。
A. 强大的语言识别工具
语言识别工具能够自动识别每个文档内的语言。这包括当单个文档包含多种语言时的情况——例如,作者故意切换语言,或主体是某种语言,但其他信息(如签名区)则包含另一种语言的元素。这些工具还可以确定每个文档内各语言的百分比分布。
在开始TAR工作流程之前进行语言识别,对于制定其余多语言TAR协议的基础至关重要。不过,由于语言识别平台的准确性差异较大(高端工具的准确率约为85%),因此选择适合项目的“合适”语言识别工具也非常重要——例如,针对韩语项目使用擅长CJK语言的工具,针对西班牙语项目则使用擅长拉丁语言的工具。
在目标数据集中运行语言识别,可以大致估算每种语言的文件数量。这些数量将决定是否在特定语言中存在一定的最低文件阈值,以合理化使用TAR,而不是仅仅进行线性的手动审查。这在并购审查程序中特别重要,因为在全球市场影响的调查范围内,某些小型外语集合的存在可能并不足以启动全面的TAR过程。
B. 联合机器学习模型
联合机器学习模型意味着对于TAR项目中的每种目标语言,需要一套单独的“训练集”文件,以训练每种语言的不同TAR引擎或“模型”——即英语文档的英语模型、日语文档的日语模型等。这无论是在使用TAR 1.0(简单主动学习)还是TAR 2.0(持续主动学习)时都是成立的。
上一篇:如何创造更具吸引力的培训材料以留住员工
下一篇:金融科技的未来:如何促进金融包容性
巨盾律师事务所以卓越的专业实力与市场声誉,一直积极投身国际法律事务的最前沿。面对对高质量笔译服务日益迫切的需求,国译翻译凭借丰富的
银行个人征信报告是反映个人信用记录、金融交易及贷款情况的重要文件,通常用于贷款审批、移民、海外购房等场合。由于其涉及敏感的财务数据
在诸多商业活动中,如进出口业务、国际贸易、跨国合资以及各项投资等,合同翻译都起着不可或缺的作用。毕竟一切商务活动往往都依赖合同来约