随笔分类 - 爬虫
摘要:1.工具准备 开发环境:Eclipse+Httpclient+Jsoup jar包: httpclient下的所有jar包(我不清楚哪些jar包是不需要的,以防万一,把所有jar包加上) jsoup-1.10.3.jar 2.了解并阅读相关文档 HttpClient 是Apache Jakarta
阅读全文
摘要:1.分析:进入堆糖网后我们在分类找到插画绘画进入这个分类后发现好多图片,下拉后发现会有不断的图片刷新出来,这就是堆糖采用了动态加载网页。 2.用开发者工具(F12)分析:按一下F12,找到network分支,再按一下F5,将刷新后的网页一直往下拉,打开XHR,发现Name下有两个或多个?includ
阅读全文
摘要:python版本:3.6.1 开发工具:PyCharm社区版,Anaconda3 数据库:MongoDB 可视化MongoDB工具:MongoVUE 1.开启数据库后,打开MongoVUE使MongoDB可视化。 2.用PyCharm编写代码,爬取数据并保存到数据库中。 3.刷新数据库查看是否保存数
阅读全文
摘要:1.提取出‘[ ]’里的数字,比如在爬取煎蛋网妹子图时需要去掉'[ ]'提取出里面的数字,也就是页码,这里用到的是python里的re模块的sub方法。 span_tag = sou.find_all('span', attrs={'class': 'current-comment-page'})[
阅读全文