摘要:
做NLPproject时需要一个成语库,我需要的是纯成语,网上找的都是有详细解释的。于是自己写了一个爬成语的python程序。1、首先找到一个在线成语网站 我选的网站是http://chengyu.itlearner.com/,选择它的原因是它把不同开头字母的成语分开,不同的字母和页所在的URL不同,是静态网页,比如A开头的第一页的链接是:http://chengyu.itlearner.com/list/A_1.html,所以我只要遍历各个字母开头的每页就可以了。2、查看网页结构,定义正则式 看一下要抓的成语的标签有什么特点,查看源码,可以发现要抓的成语都在标签中,如:安如磐石,成语事实.. 阅读全文