布客·饱和式翻译计划 Q&A

Q1:翻译这么多教程有什么意义?

A1:如果你现在,在AIGC大爆发之后问我这个问题,我只想告诉你们,翻译是 AIGC 中一种重要的形式,输出稳定,没有幻觉,比什么扩写仿写之类的好多了。

当然我也尝试过很多其他的AIGC形式,比如源码解析、课程笔记之类的,但都没有翻译方便省事。翻译一定是未来几年技术自媒体 AIGC 的主流形态。

Q2:现在已经有这么多教程了,还需要继续翻译嘛?

其实 2017 年之前,中文互联网上能看的技术教程是很少的。我记得唯一能看的就是 W3School,还有个菜鸟教程。现在你可以挑挑拣拣说它过时了或者错误太多,或者怎么怎么样,但是在当年,它就是唯一能看的。并且,它里面的教程都是基本的编程语言(Java、Python 之类)和基本的前端知识(HTML、CSS、JS、AJAX)。像 Docker、Redis 这种互联网基础设施,和 NumPy、PyTorch 这种数据科学人工智能框架的教程,根本没有。

在此之后,神经机器翻译(NMT)迅速发展,使我们能够大批量翻译这种教程。其实我们并不会因为翻译了这一大堆而止步,因为这些教程也跟 W3School 一样,有过时的问题,而技术是不断发展的。也许未来技术知识传播的形式从图文逐渐转向视频,我们也加大这种自动视频笔记创作内容的比例。但有些技术知识应该还是图文形式,我们也会一直保留这个计划。

Q3:这么多教程会有人看嘛?

技术教程和小说不一样,并不需要人从头读到尾。当你遇到了一个难以解决的技术问题,你在文档库里面检索,找到了一篇文章能解决你的问题,那就是有价值的。只不过,我们不知道未来会出现什么问题,以及文档库里面的哪篇文章能够解决它,我们就要不停扩充文档库。

这些教程本来是部署在我们社区自己的网站的,但后来发现没多少人看,就发布在了CSDN、博客园、阿里云、腾讯云社区,以及知乎、51CTO上。程序员习惯用搜索引擎来搜索技术问题,这样能够尽可能覆盖到所有搜索引擎,在需要解决技术问题的时候,被搜索到的概率也会增大。

Q4:如果大家都看英文原版教程,会不会更好?

这就相当于为何要给代码加注释一样。如果我把代码里面的注释全部删掉,你肯定也看得懂,就是需要花力气先猜测代码是做什么的,这相当于在心里给代码加注释。但如果代码是带有注释的,那么这个过程就不需要,我们可以直接读注释,并且会更快。

如果一个代码没有注释,我们第一次阅读的时候肯定会给它加注释,而不是每次阅读都加注释然后删掉。如果一个项目不允许你写任何注释,你肯定会疯掉。英文原版教程就相当于不允许加任何注释的项目。

Q5:用上自动化手段之后,会不会让技术博客失去意义?

我再重复一遍,我们正在积累一个技术文档库,它包含我们未来能用的上的所有知识,并且在我们需要的时候快速定位。技术博客只是文档库的一个副产品,它的作用是允许搜索引擎检索到,顺便赚一点人气。如果哪一天我们有了直接提交给搜索引擎的更好方式,我们也不会写什么博客了。就目前这个极阶段,写博客这件事情本身是没有意义的,应该用自动化来干掉。

很多人总喜欢用固定的动作,也就是仪式感感动自己,结果屁用没有。我们应该关注结果本身的效果。同时不要妄自菲薄,你干出一些动静,对技术圈就必然有一点影响,注意不包括只说不做的看客们。

Q6:在翻译教程过程中有没有什么经验教训?

首先就是不要低估社区成员的惰性。即使你有一个一万人的社区,那么绝大多数人肯定是聊天吹水,不会有任何贡献。在愿意贡献的那几十个人里面,绝大多数都会摸鱼。就是本来一天空闲时间能完成的翻译或者校对任务,绝对会给你拖到一个月。这就是公地悲剧,因为社区是公益性质的,表面上看不干也没有什么影响,但是大家最后都没有好的教程看。

我的建议是能自动化就自动化,这样一是避免了贡献者摸鱼的等待时间,二是避免了和贡献者扯皮的时间。我们程序员时间都非常宝贵,这个项目又是公益项目,当然是怎么高效怎么来。

更重要的是要钻研和掌握整个任务的底层驱动技术,在这个例子里面是神经机器翻译。一开始机器翻译兴起的时候还只能翻译纯文本,根本搞不好具有复杂格式的 Markdown 和 HTML。我们也没有联系其它技术力量来解决这个问题。但是一个翻译模型也就几百MB(bert-base量级),用最烂的1080TI显卡就可以训练,用CPU就可以推理。我完全可以抽出一年来去研究和实现自己的模型。但可惜的是,我没有这么搞,而是开展活动让成员给文档排版,最后效果非常差,浪费不少时间。

Q7:未来会不会将已有的 AIGC 手段用于其它领域的内容?

当然会,作为一个技术社区,能够持续产出作品就是最大的宣传手段。我们坚信工作是一时的,娱乐是永久的,计划翻译一些小说或者漫画,这种一般娱乐向的东西。现在技术成熟了,我们可以飞速解放生产力,避免投入太多时间或者精力,达到一样甚至更好的效果。

但是小说基本都有人翻译,多亏了各大汉化组的辛勤劳作,基本上Web版发布之后隔几个小时就有了,这一点和技术教程完全不一样。漫画的翻译流程和文本完全不一样,需要对话框识别、OCR、翻译、回填。这个流程要比文本翻译复杂得多。我们有漫画翻译的计划,但需要一段时间来准备工具。

posted @ 2024-08-06 13:53  绝不原创的飞龙  阅读(1)  评论(0编辑  收藏  举报