对西方市场的粗暴的解决方案,那就是,不要什么AI实时翻译,把他用来训练AI的几十万本网络小说,统统都翻成英文,然后用英文版本训练。
这相当于把一个问题拆成两个。其中后一个问题不需要什么新的工作量,而前一个问题,因为是定向解决到英语区国家推广的问题,不用考虑翻译成多国语言,也不用考虑普适性,只需要解决针对《乱世出山》的单一问题,于是变得非常直接。
这就变成了最简单的机翻小说的问题了,一本几百万字,几十万本,无非就是一万亿字的体量,只要有优秀的翻译算法和配套算力用于翻小说,不是问题!
问题是没有合适的算法和算力。
理解自然语意比较常用的模型里,百度的ERNIE适合汉语任务,而谷歌的BERT2.0虽然汉语英文都可以,但是主要创新点都在预训练上。对于长句语意的理解还行,但对翻译既不友好也不那么准确,特别是完形填空能力比较一般,连百度都不如。
而薛明要的是翻译小说,比翻译普通文本的要求高很多。BERT2.0的翻译实力翻个普通的文本都勉强,翻小说根本没法用。
所以还是OpenAI的GPT-2最合适,哪怕是阉割过的GPT-2。
于是问题转了一个超大的圈子又回到最开始训练GPT-2模型的问题了,谷歌的TPU云资源最合适,退而求其次的选项是国内的一些私有云。
这个问题必须解决,否则如果还是原先的翻译水平,经过岛国和宇宙两个区的实践,《乱世出山》手游海外运营的天花板实在是太低了,强行降低一半多的高度,简直不能忍。
所以今天楚垣夕必须来找谷歌要机会,国内的私有云实在是一言难尽,可能必须向中曙光或者江南计算申请算力了,麻烦地令让人头秃。
那么,谷歌会如人所愿么?
楚垣夕带着周敏溪转悠出来,把这个麻筋给周敏溪一说,周敏溪当时就蹦出一句:“那可是谷歌啊!”
然后她陷入深度懵逼的状态。巴人就算再牛逼,那也是一条小鱼,甚至在天朝内部都是小鱼虾米级别的,而谷歌是这颗星球上首屈一指的公司。“狮虎,你打算怎么要这个算力?靠你俊朗的外形吗?”
“不但要靠俊朗的外形,还要靠有风度的着装。”楚垣夕故作神秘的一笑,十分骚气的双手抻出格子衫的左右衣角,“你狮虎我可是准备了秘密武器的。”
说话间他们已经走到分会场的边角,没什么人的地方,连会场中嘈杂的声音都变轻了。
“什么秘密武器呀?该不会是……”周敏溪左右看看,附近人不多,脑子里顿时相当凌乱,心说支开莫妮卡把我单独带出来,还带到这么偏僻的地方,难道是楚垣夕准备的秘密武器是让我……
“你猜是什么呀?”楚垣夕促狭的眨眨眼,周敏溪张张嘴,试探着说:“是,美女?”