Mac上的欧路词典单词本迁移到有道词典 #node.js

摘要

　　有道词典提供了柯林斯和朗文辞典，加上最近在背单词且Mac版的屏幕取词也够用了，为了云单词本的同步，决定抛弃Mac上的欧路词典。单词欧路上的单词本也存了一百多个单词。怎样迁移到有道呢？

　　关键词：node.js csv http charles

思路

　　有道的Mac版和PC版都不支持导入欧路的单词本文件（csv格式，是个好东西）。

　　如果是高中时的我，我会猜有道有一个本地的单词本文件。我可以把欧路导出的单词复制粘贴到该文件（假设有道也采用csv格式，那么就复制粘贴）。现是计算机科班出身，我想到的思路有：

　　1.OC语言的消息机制或许可以让我有可能调用到有道词典运行时的函数；

　　2.网络接口（假如有道没有对该API加密，那么就可以抓包然后仿照）。

　　最近又刚好搞了点node.js，初尝脚本语言的轻。不需要集成开发工具，Sublime Text + Terminal就够了。

抓包

	POST ...(路径) HTTP/1.1
Host	dict.youdao.com
Accept	/
Content-Type	application/x-www-form-urlencoded
Connection	keep-alive
Cookie	...(Cookie)
User-Agent	YoudaoDict/139 CFNetwork/760.6.3 Darwin/15.6.0 (x86_64)
Accept-Language	en-us
Accept-Encoding	gzip, deflate
Content-Length	984

data

<?xml version="1.0" encoding="utf-8"?>

<request>
<type>words</type>
<operation>commit</operation>
<maxLocalTimestamp>1483321810485</maxLocalTimestamp>
<maxRemLocalTimestamp>1483321810507</maxRemLocalTimestamp>
<actionlist>
<action type="add">
<word><![CDATA[yield]]></word>
<wordInfo>
<phonetic><![CDATA[]]></phonetic>
<trans><![CDATA[- vt. 出产；屈服；放弃 - vi. 屈服，投降 - n. 收益；产量时态: yielded, yielding, yields 名词: yielder ]]></trans>
<tags><![CDATA[]]></tags>
<addtime>1483321814</addtime>
<flag>1</flag>
</wordInfo>
</action>
</actionlist>
</request>

version

分析抓包到的请求

　　这个接口没有加密。分析抓到的Post请求，请求路径和Cookie都是在一段时间内不会变化的。主要是其中的时间戳，单词和释义。

添加一个单词

　　下边是终端的命令行和控制台输出。AddAWord.js仿照上边分析的请求，运行后返回的响应是200。下边的乱码是由于返回的响应体是gzip压缩过的，在这里没有进行解压。看到状态码是200，有道里的单词本已经多了“aWord”和“aaaa”。说明这个思路可行。

MBP:csv studio MacbookPro$ node AddAWord.js 
Status: 200
headers: {"server":"nginx","date":"Mon, 02 Jan 2017 08:16:52 GMT","content-type":"text/xml;charset=UTF-8","transfer-encoding":"chunked","connection":"keep-alive","vary":"Accept-Encoding","content-language":"en-US","content-encoding":"gzip"}
body分隔线---------------------------------

u��� 
     ��x
�}C�[<T|�m/`\���`ʢ^�B��/��>�}0�V\�r��m���w���:���
                                                 <��ـ�e;�C�đѭ#2��Y��u�9���<N2P3�я?z���J��K.�J� 6�0ͦcFnH��U��l��TRĺ�~fJ�(

body分隔线---------------------------------

提取csv文件中的单词列表，并添加

　　node.js社区没有让我失望，很快我就找到了解析csv的模块及其示例代码。接下来的事情就简单了，创建读取csv文件的流，解析流中获取的字符串，获得单词列表数组，遍历数组发送请求。

　　不过，当我用并发的形式发送所有单词到服务器时，结果只是添加了一个或两个单词，我猜想的原因是服务器对待这些请求是排队的，由于对时间戳的限制，几乎所有请求饿死了。这时候需要用到同步请求。

　　Node.js原生没有同步请求。npm上有很多能够实现同步请求的模块，但是为了保持单词的顺序，回调+递归会比较适合。关键代码如下：

1 readerStream.on('end',function(){
2     //把文本文件转化为字符串
3     var input = data;
4     parse(input, {comment: '#'}, function(err, output){
5     //字符串解析为对象之后，下边发送调用网页的API
6     //node.js原生不支持发送同步请求，同时为了保持单词的顺序，直接采用回调递归
7       addToWordBook(output, output.length-1);
8   });
9 });

结尾

　　所有单词添加完毕。

　　后记：这个方法并不能普遍化，因为需要抓包拿到token，cookie等数据，若要普遍化，有一个思路是实现用帐号密码登录，用代码取得token等数据，而不是通过抓包。

posted on 2017-01-02 19:45 HowMacist 阅读(935) 评论(0) 收藏举报

刷新页面返回顶部