NiuTrans.SMT统计机器翻译系统

系统特色

  1. 由C++编写,运行速度快。
  2. 支持多线程
  3. 简单易用的API
  4. 翻译任务中高质量的翻译效果
  5. 内嵌小巧、高效的N-元语言模型,无需其它软件(如SRILM)的外部支持。
  6. 支持多个统计机器翻译模型
    • 基于短语的模型
    • 基于层次短语的模型
    • 基于句法(树到串,串到树,树到树)的模型

系统运行要求

注意:运行本系统的最低要求为2GB内存、10GB硬盘空间。 如果使用大规模的语料训练本系统,则需要更多的内存和硬盘空间。建议使用64位操作系统以支持大规模语料/模型(如N-元语言模型)

安装

请解压下载的软件包(假设安装目录是“NiuTrans”),按照如下说明安装本系统。

对于Windows用户

- 在 NiuTrans\src\下打开NiuTrans.sln
- 设置编译模式为Release
- 设置平台模式为Win32(32位OS)或x64(64位OS)
- 构建整体解决方案
- 在NiuTrans\bin\目录下生成了所有的二进制文件。

对于Linux用户

- $ cd NiuTrans/src/
- $ chmod a+x install.sh
- $ ./install.sh -m32 (32位OS) 或 ./install.sh (64位OS)
- $ source ~/.bashrc
- 在“NiuTrans/bin/”目录下生成了所有的二进制文件。

手册

在NiuTrans中提供描述更多关于NiuTrans细节的手册,同时介绍如何使用NiuTrans更好搭建统计机器翻译系统。点击这里下载 PDF版手册

NiuTrans.SMT团队

致谢:在本项目实施的过程中,获得了往届毕业生的支持,他们是:李强(基于短语的系统和各种脚本),张浩(解码器,调序模型),陈如山(语言模型),姚树杰(数据选取和数据预处理),马骥(语言模型,CWMT2013基线系统),孙坤杰(CWMT2013汉英基线系统),刘卓(CWMT2013英汉基线系统)。

如何引用NiuTrans

如果您在研究中使用了NiuTrans.SMT,请在参考文献中注明引用如下论文

Tong Xiao, Jingbo Zhu, Hao Zhang and Qiang Li. 2012. NiuTrans: An Open Source Toolkit for Phrase-based and Syntax-based Machine Translation. In Proc. of ACL, demonstration session.

获得帮助

有关NiuTrans, 请发送e-mail至niutrans@mail.neu.edu.cn。我们将为您详细解答。

NiuTrans历史

致谢

本项目的部分工作获得了如下支持:国家自然科学基金, 高等院校博士学科点专项科研基金, 以及中央高校基本科研基金。


使用说明

使用自己的数据-Linux(目前仅支持中英/英中翻译任务)

概述:双语训练数据/开发集/测试集/语言模型训练数据处理步骤

这里首先介绍一下数据预处理的基本内容。每个步骤的具体操作细节在后面会有详细描述。