************

谈统计机器翻译中基于双语数据筛选的语言模型自适应方法

导读:统计机器翻译中基于双语数据筛选的语言模型自适应方法
统计机器翻译中基于双语数据筛选的语言模型自适应方法摘 要 统计机器翻译中,语言模型的性能受限于训练数据的数量和质量。为提高其性能,通常采用数据筛选的策略筛选合适的训练数据。本文对基于双语数据筛选的策略进行了全面综述和分析,并对各类策略进行了比较和总结。
  【关键词】统计机器翻译 双语数据筛选 语言模型自适应
  在统计机器翻译中,语言模型的性能受限于训练数据的数量和质量,并不是仅靠增加训练数据的规模就可以提高语言模型的性能,也要训练数据和当前翻译任务相匹配。因此,很多学者选择从大规模训练数据中筛选和当前翻译任务相似的训练数据的角度来提高语言模型的性能。这样可以提供更精确的模型概率,也更和当前翻译任务相匹配,进而提高翻译性能。
  前人的基于数据筛选的语言模型自适应策略大都依赖于一次解码的翻译结果,他们根据一次解码的翻译结果从目标语言端语言模型的训练数据中筛选和当前翻译任务相似的训练数据。这些策略全部受限于翻译结果的质量,越好的初始翻译结果会带来越精确的筛选到的数据。但是翻译结果远不够精确,里面有很多噪声数据。带有噪声的翻译结果会误导数据筛选过程,进而将噪声带入筛选到的训练数据中,最终导致“噪声繁衍”的理由,降低自适应后的语言模型的性能。
  另外,传统的数据筛选策略都是基于词袋模型的,可以看作是上下文内容无关的。这些策略在整个数据筛选过程中将词语孤立看待,以词为单位,没有考虑上下文内容信息,会降低筛选到的数据的质量。
  为了解决以上策略的不足,很多学者从跨语言数据筛选和引入上下文内容的角度提出了双语数据筛选策略,基本上可以分为基于翻译模型的双语数据筛选和基于主题模型的双语数据筛选两类策略。在本论文中我们将对这两类策略进行全面综述和分析,最后给出相关的比较,总结和展望。
  1 基于双语数据筛选的翻译模型自适应策略
  1.1 基于词翻译的双语数据筛选(CLWTM)
  1.2 基于短语翻译的双语数据筛选(CLPTM)
  首先,每一个句子T被分割成K个非空的短语序列t1,…,tk的集合U;其次,非空的短语系列t1,…,tk被依次转化(翻译)成一系列的非空的短语系列q1,…,qk;最后,将得到的短语转化(翻译)序列q1,…,qk的集合V 进行调序组合生成句子S。
  在以上假设下,基于短语翻译的双语数据筛选可以表示为:
  其中,M表示K个短语调序后的结果;B(T,S)定义为U,V和M构成的三元组集合,表示将T转换成S的过程。
  对于给定的部分对齐关系,我们关注的是由U,V和M构成的三元组与部分对齐关系是一致的,记为B(T,S, )。一旦词语对齐关系确定了,调序部分就可以忽略。利用最大化求和可以得到:
  不同于基于词的翻译模型,基于短语的模型在数据筛选过程以短语为单位,融入了上下文信息,理论上可以获得更好的性能,但是直接运用基于短语翻译的相似值计算进行数据筛选效果不好。为提高性能,通常采用线性排序的策略,将不同的模型作为特征,
上一篇论文:探讨新角度下的语言与思维关系 下一篇论文:论新媒体语境下英语语言与汉语语言的相互渗透
相关论文
业务范围
免费本科范文
免费硕士范文
免费职称范文
********
职称********表