第67章你们能比我更懂机器翻译（5k）_科技入侵现代

nbsp; 这样来降低单次计算的复杂度，提高规则的复用率！”

林燃的话给了在座研究团队的成员们非常多的灵感。

就好像之前一直陷在百越的丛林里找不到出路，而现在天上出现一道光指引他们怎么样才能走出丛林迷宫。

大家都有点迫不及待去尝试了。

所有研究人员都疯狂在笔记本上记录下林燃所说的。

虽然不确定教授的方法是否管用，但有路总比之前没有好。

再者，如果你不好好记下来，到时候被开除只是教授一句话的事。

“好了刚才我们讲了一些简单的内容，现在才是最难的。

因为IBM的机器不是那么强大，我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度。

我把它叫做基于频率的词对齐。

这也是我们引入统计模型的核。

我们先要手动分析平行句子，标注俄语词或短语与英语翻译的对应关系。

俄语句子Мыговоримомире

英语翻译：“We speak about peace

对齐结果：“мы”对应“we”

“говорим”对应“speak”

“о”对应“about”

“мире”对应“peace”

然后我们需要对这种对齐的频率进行统计。

统计每个俄语词或短语在英语中的对应翻译出现的频率。

例如，在语料中，“говорим”在80%的句子中翻译为“speak”，20%翻译为“talk”。

这样对于我们就可以构建概率表了。

将这些概率整理成表格，供机器进行查询。由于内存空间有限，我们暂时只存储高频词对，像出现次数前1000的词对，忽略低频情况。

第67章 你们能比我更懂机器翻译（5k）（3 / 8）