2018 年 10月 3 日随笔档案 - 仔仔ji

2018年10月3日

摘要： Python中可以用来爬取网络数据的库有很多，常见的有：urllib、urllib2、urllib3、requests、scrapy、selenium等。基本上可以分为3类：第一类：urllib、urllib2、urllib3、requests；第二类：scrapy；第三类：selenium 阅读全文

posted @ 2018-10-03 18:05 仔仔ji 阅读(245) 评论(0) 推荐(0) 编辑

网络爬虫-爬取京东商品评价数据

摘要：前段时间做商品评价的语义分析，需要大量的电商数据，于是乎就自己动手爬取京东的数据。第一次接触爬虫是使用selenium爬取CNKI的摘要，基于惯性思维的我仍然想用selenium+Firefox的方法爬取京东上的数据。代码就这样以selenium为框架写好了，但是效果一如既往的差，主要是耗时真的是太阅读全文

posted @ 2018-10-03 17:50 仔仔ji 阅读(6897) 评论(0) 推荐(3) 编辑

短文本相似度计算

摘要：短文本的相似度计算方法可以分为两大类：基于深度学习的方法和基于非深度学习的方法。科研方面基本都是从深度学习方面入手，但个人觉得想把单语言的短文本相似度计算给做出花来比较难，相对而言基于深度学习的跨语言相似度计算稍微好点。工程方面多半不用深度学习的方法，主要是获取带标记的语比较难的(除非公司花钱找人标阅读全文

posted @ 2018-10-03 12:18 仔仔ji 阅读(6939) 评论(0) 推荐(0) 编辑

公告