一、概念

语料库,又称翻译记忆库(TM),一个数据库,存储以前翻译过的句子、段落或文本句段。而库中的每个条目或每个句段均包含原语言(称为“源文”)及其翻译(称为“译文”)。 这些成对的句段称为翻译单位,或“TU”。语料库能降低翻译成本以及提高翻译工作的质量、速度、一致性和效率。

二、何时使用语料库

语料库在TMS和CAT系统均有使用,典型的场景如下:

  1. 在TMS的订单管理的数据预处理,用于统计当前订单的工作量,详见订单管理。
  2. 在CAT的产能管理的工作量预估,用于统计当前项目的工作量,详见产能管理。
  3. 在CAT的工作台,用于辅助译员提高翻译速度和质量。

三、相似度计算

  1. 匹配原文和被匹配的原文的相似度采用优化的编辑距离算法,取值范围:0-100
  2. 当步骤1计算的相似度分值等于100时,如果匹配原文的上文与被匹配原文的上文相同,则在步骤1的分值+1
  3. 当步骤1计算的相似度分值等于100时,如果匹配原文的下文与被匹配原文的下文相同,则在步骤2的分值+1

四、在多个语料库中是如何匹配最佳句对

  1. 在各个语料库分别匹配出最佳句对
  2. 每个语料库的最佳句对的分值乘上对应的搜索权重
  3. 步骤2计算的分值第一个最大者为最佳匹配句对。
  4. 例如语料库A、B、C,搜索权重分别是100,100,80,匹配的句对分数分别是90,90,100,那么100*90=100*90>80*100,最后最佳句对是语料库A的句对。

五、语料库使用逻辑

以XML文件为例说明系统在语料库使用上的逻辑:
  • 每个主单可配置多个语料库,可设置一个主库、多个参考库(最多20个),不同的优先级。
  • 每个主库或参考库可能有多个属性,可设置只匹配具有某个或多个属性的句对,从而缩小搜索范围、提升译文的一致性。
  • 系统为每个主单自动床架一个“项目库”,也就是临时的中间库。该主单下面的所有子单新增的句对,在译文Confirmed之后都会自动加入到项目库内。该主单下的所有译员都可以实时共享彼此的译文。
  • 语料匹配的先后逻辑:项目库 > 主库 > 参考库。当语料库无75%以上的匹配时,系统将调用MT引擎,给译员提供机翻的译文。