摘要: Python中可以用来爬取网络数据的库有很多,常见的有:urllib、urllib2、urllib3、requests、scrapy、selenium等。 基本上可以分为3类: 第一类:urllib、urllib2、urllib3、requests; 第二类:scrapy; 第三类:selenium 阅读全文
posted @ 2018-10-03 18:05 仔仔ji 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据。第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法爬取京东上的数据。代码就这样以selenium为框架写好了,但是效果一如既往的差,主要是耗时真的是太 阅读全文
posted @ 2018-10-03 17:50 仔仔ji 阅读(6897) 评论(0) 推荐(3) 编辑
摘要: 短文本的相似度计算方法可以分为两大类:基于深度学习的方法和基于非深度学习的方法。科研方面基本都是从深度学习方面入手,但个人觉得想把单语言的短文本相似度计算给做出花来比较难,相对而言基于深度学习的跨语言相似度计算稍微好点。工程方面多半不用深度学习的方法,主要是获取带标记的语比较难的(除非公司花钱找人标 阅读全文
posted @ 2018-10-03 12:18 仔仔ji 阅读(6939) 评论(0) 推荐(0) 编辑