谷歌工程师利用和语言翻译类似的技术开发出了一个用于翻译图片主题的机器学习算法

将一种语言自动翻译成另一种语言一直以来都是难以攻克的问题。但最近几年，谷歌通过开发机器翻译算法改变了传统的翻译过程，通过谷歌翻译从本质上改变了跨文化翻译交流。

如今，谷歌正在运用同样的机器学习技术将图片转变为文字。其结果就是自动产生能够准确描述图片内容的标题。该技术将用在互联网搜索引擎，图片自动发表，视觉受损者的网页浏览，以及其他更为广阔的领域。

翻译语言的传统步骤是一个更迭的过程 - 从个体单词的翻译开始，然后通过重新排列单词和短语的顺序来提高翻译的准确性。但是近几年来，通过完全不同的方式，谷歌已经能够运用自己超大规模的搜索数据库来转换文字。

谷歌运用的方法的本质是统计相邻或相近单词出现的频率，并且在向量空间中定义他们之间的关系。通过这样的方法，每一个单词就可以用一个向量在空间中表示出来，每一个句子则是不同向量的组合。接下来谷歌做了一个重要的假设 - 无论什么语言，特定的单词之间具备相同的关系。例如，在所有语言中，向量“国王-男人+女人=皇后”都应该是一个真命题。

这就使得语言翻译成为了向量空间学里的一个问题。谷歌翻译是通过这一方式实现这一过程的：先把句子转换成向量，然后使用这个向量产生意思相同，另一种语言的句子。

现在Oriol Vinyals 和他在谷歌的合作者们正在使用类似的方法将图片转化为文字。他们的技术是使用神经网络去学习10万个图片的数据集合以及他们的标题，以此来实现如何对这些图片的内容进行分类。

但是除了生成一组可以描述图片的单词，他们的算法同样可以生成代表单词之间关系的向量。这个向量可以和谷歌现有的翻译算法结合起来去生成英语标题，或者任何其他语言的标题。事实上，谷歌的机器学习方法已经可以将图片转换为单词。

为了考量这种方法的效果，他们从亚马逊的”mechanical turk” （提供不同技能的劳动力资源平台）雇佣了评估者来对通过上述方法自动产生的标题，以及其他方法和人工翻译的标题进行评分。

结果显示被谷歌叫做神经图片标题(Neural Image Caption, NIC)的新系统非常成功。使用一个叫做PASCAL的被大家所熟知的图片数据集，神经图片标题的翻译功能明显超出其他的非人工翻译方法。据Vinyals说,NIC的BLEU (wiki) 分数是59，现今最好的非人工翻译技术的分数是25，人工翻译的分数是69。

这是个不错的结果，并且随着训练数据集的增大，这个方法产生的结果会更好。“从实验中我们非常清楚地看到，由于数据集的增大，NIC的翻译功能也相应得到提高。”谷歌团队说。

下图是一组图片翻译结果的示例－按翻译结果评分分组：