笔趣库小说网 > 科幻小说 > 科技入侵现代 > 第148章 你们能比我更懂机器翻译(5k

第148章 你们能比我更懂机器翻译(5k(3 / 8)

究团队的成员们非常多的灵感。

    就好像之前一直陷在百越的丛林里找不到出路,而现在天上出现一道光指引他们怎麽样才能走出丛林迷宫。

    大家都有点迫不及待去尝试了。

    所有研究人员都疯狂在笔记本上记录下林燃所说的。

    虽然不确定教授的方法是否管用,但有路总比之前没有好。

    再者,如果你不好好记下来,到时候被开除只是教授一句话的事。

    「好了刚才我们讲了一些简单的内容,现在才是最难的。

    因为IBM的机器不是那麽强大,我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度。

    我把它叫做基于频率的词对齐。

    这也是我们引入统计模型的核。

    我们先要手动分析平行句子,标注俄语词或短语与英语翻译的对应关系。

    俄语句子Мыговоримомире

    英语翻译:「Wespeakaboutpeace

    对齐结果:「мы」对应「we」

    「говорим」对应「speak」

    「о」对应「about」

    「мире」对应「peace」

    然后我们需要对这种对齐的频率进行统计。

    统计每个俄语词或短语在英语中的对应翻译出现的频率。

    例如,在语料中,「говорим」在80%的句子中翻译为「speak」,20%翻译为「talk」。

    这样对于我们就可以构建概率表了。

    将这些概率整理成表格,供机器进行查询。由于内存空间有限,我们暂时只存储高频词对,像出现次数前1000的词对,忽略低频情况。

    当翻译某个词的时候出现多个选择,就参考概率表选择最可能的翻译。

    另外就是统计相邻词的共现频率。мы经常与говорим一起出现,对应Wespeak,机器在翻译的时候则优先选择这个组合。

    通过规则优先处理和统计方法处理模糊情况的方式,来弥补规则的不足

最新小说: 逆行诸天万界 偷星九月天里的超能力者 养崽玩家在线基建 地球重启:全人类缩小100倍 夭寿,我才八个月,系统迟到六十年? 异常收容:我是笼子里的幸运儿 女尊世界的男剑仙 大乾:从一介布衣到权倾天下! 穿越后,我在全班面前向警花表白 玄魔之旅