随笔分类 - python爬虫
摘要:之前使用代理IP,构造的proxies一直都是http模式 但是今天遇到的网站是http类型的,结果就报错了,之后把proxies里的http改为https就成功了 也就是说有一个规律,使用代理的时候,指定http模式只能访问https开头的URL,指定https模式只能访问http开头的URL 但
阅读全文
摘要:pycharm+Scrapy 距离上次使用Scrapy已经是大半年前的事情了,赶紧把西瓜皮捡回来。。 简单粗暴上爬取目标: 初始URL:http://quotes.toscrape.com/ 目标:将每一页中每一栏的语录、作者、标签解析出来,保存到json文件或者MongoDB数据库中 打开命令行,
阅读全文
摘要:最近写爬虫的时候遇到了一个问题,爬一个专利网站,主要工作流是先把列表页下所有的专利包括专利号、专利名称、URL放到数据库的一个文档info中,再抽取info中的URL进行爬取详情页,爬取列表页的信息做了一个去重,爬一个就在数据库里查一个。。效率就不提了(另一种我能想到的方法是先用线程池爬取一遍,把单
阅读全文
摘要:搭建环境: win10,Python3.6,pycharm,未设虚拟环境 之前写的爬虫并没有架构的思想,且不具备面向对象的特征,现在写一个基础爬虫架构,爬取百度百科,首先介绍一下基础爬虫框架的五大模块功能,包括爬虫调度器,URL管理器,HTML下载器,HTML解析器,数据存储器,功能分析如下: >>
阅读全文
摘要:CSS Selector 与Xpath CSS Selector: 谁,在哪,第几个,长什么样 body > div.main-content > ul > li:nth-child(1) > img XPath: 谁,在哪,第几个 /html/body/div[2]/ul/li[1]/img
阅读全文
摘要:前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到selenium的神奇之处,关键是虽然对小白来说信息量很大,但是讲得特别清楚,不亚于培训班哈哈哈哈。接下来
阅读全文
摘要:环境 win64位,python3.6, 问题与解决 说来也巧,今天无意中解决了两个多月前的问题,即用selenium调用chrome浏览器报错的问题;起因是在知乎中看到了一篇12306抢票的文章,用splinter实现抢票,先把代码贴出来,晚点再研究 好了,言归正传,之前那篇博文贴出了报错,原因不
阅读全文
摘要:前言: 编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中 系统环境: 64位win10系统,64位python3.6,IDE位pycharm 预备知识: BeautifulSoup的基本知识,re正则表达式的基本知识
阅读全文
摘要:2017-10-30 21:49:55 前言: 初步使用scrapy爬虫框架,爬取各个网站信息 系统环境: 64位win10系统,装有64位python3.6,IDE为pycharm,使用cmd命令行工具 预备知识: XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和
阅读全文
摘要:2017-10-09 19:06:22 版权声明:本文为博主原创文章,未经博主允许不得转载。 前言: 先获得cookie,然后自动登录豆瓣和新浪微博 系统环境: 64位win10系统,同时装python2.7和python3.6两个版本(本次使用python3.6),IDE为pycharm,浏览器为
阅读全文
摘要:前言: 准备使用selenium爬取网站数据,先搭建selenium+python爬虫环境搭建 系统环境: 64位win10系统,同时装python2.7和python3.6两个版本,IDE为pycharm 安装selenium 进入cmd命令行窗口,敲入以下代码 python便会自动下载和安装se
阅读全文