python爬虫 - 随笔分类 - 嶙羽

该文被密码保护。

posted @ 2018-05-16 12:28 嶙羽阅读(7) 评论(0) 推荐(0)

摘要：之前使用代理IP，构造的proxies一直都是http模式但是今天遇到的网站是http类型的，结果就报错了，之后把proxies里的http改为https就成功了也就是说有一个规律，使用代理的时候，指定http模式只能访问https开头的URL，指定https模式只能访问http开头的URL 但阅读全文

posted @ 2018-05-07 15:29 嶙羽阅读(1267) 评论(1) 推荐(0)

Scrapy框架基本使用

摘要：pycharm+Scrapy 距离上次使用Scrapy已经是大半年前的事情了，赶紧把西瓜皮捡回来。。简单粗暴上爬取目标：初始URL：http://quotes.toscrape.com/ 目标：将每一页中每一栏的语录、作者、标签解析出来，保存到json文件或者MongoDB数据库中打开命令行，阅读全文

posted @ 2018-04-02 16:31 嶙羽阅读(289) 评论(0) 推荐(0)

MongoDB数据库去重

摘要：最近写爬虫的时候遇到了一个问题，爬一个专利网站，主要工作流是先把列表页下所有的专利包括专利号、专利名称、URL放到数据库的一个文档info中，再抽取info中的URL进行爬取详情页，爬取列表页的信息做了一个去重，爬一个就在数据库里查一个。。效率就不提了（另一种我能想到的方法是先用线程池爬取一遍，把单阅读全文

posted @ 2018-03-22 21:07 嶙羽阅读(1835) 评论(0) 推荐(0)

Python基础爬虫

摘要：搭建环境： win10，Python3.6，pycharm，未设虚拟环境之前写的爬虫并没有架构的思想，且不具备面向对象的特征，现在写一个基础爬虫架构，爬取百度百科，首先介绍一下基础爬虫框架的五大模块功能，包括爬虫调度器，URL管理器，HTML下载器，HTML解析器，数据存储器，功能分析如下： >> 阅读全文

posted @ 2018-03-21 17:39 嶙羽阅读(416) 评论(0) 推荐(0)

python爬虫之网页解析

摘要：CSS Selector 与Xpath CSS Selector: 谁，在哪，第几个，长什么样 body > div.main-content > ul > li:nth-child(1) > img XPath: 谁，在哪，第几个 /html/body/div[2]/ul/li[1]/img 阅读全文

posted @ 2018-02-16 22:13 嶙羽阅读(190) 评论(0) 推荐(0)

Selenium模拟浏览器抓取淘宝美食信息

摘要：前言：无意中在网上发现了静觅大神（崔老师），又无意中发现自己硬盘里有静觅大神录制的视频，于是乎看了其中一个，可以说是非常牛逼了，让我这个用urllib，requests用了那么久的小白，体会到selenium的神奇之处，关键是虽然对小白来说信息量很大，但是讲得特别清楚，不亚于培训班哈哈哈哈。接下来阅读全文

posted @ 2018-01-18 13:43 嶙羽阅读(449) 评论(0) 推荐(0)

python使用selenium安装chromedriver的问题

摘要：环境 win64位，python3.6, 问题与解决说来也巧，今天无意中解决了两个多月前的问题，即用selenium调用chrome浏览器报错的问题；起因是在知乎中看到了一篇12306抢票的文章，用splinter实现抢票，先把代码贴出来，晚点再研究好了，言归正传，之前那篇博文贴出了报错，原因不阅读全文

posted @ 2018-01-17 21:12 嶙羽阅读(5540) 评论(0) 推荐(0)

python如何去掉字符串‘\xa0’

摘要：python 字符串阅读全文

posted @ 2018-01-05 12:54 嶙羽阅读(15878) 评论(0) 推荐(1)

使用python爬虫爬取股票数据

摘要：前言：编写一个爬虫脚本，用于爬取东方财富网的上海股票代码，并通过爬取百度股票的单个股票数据，将所有上海股票数据爬取下来并保存到本地文件中系统环境： 64位win10系统，64位python3.6,IDE位pycharm 预备知识： BeautifulSoup的基本知识，re正则表达式的基本知识阅读全文

posted @ 2017-11-08 20:43 嶙羽阅读(10091) 评论(0) 推荐(0)

初窥scrapy爬虫

摘要：2017-10-30 21:49:55 前言：初步使用scrapy爬虫框架，爬取各个网站信息系统环境： 64位win10系统，装有64位python3.6，IDE为pycharm，使用cmd命令行工具预备知识： XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和阅读全文

posted @ 2017-10-31 16:40 嶙羽阅读(316) 评论(0) 推荐(0)

python爬虫+使用cookie登录豆瓣

posted @ 2017-10-09 19:11 嶙羽阅读(5630) 评论(0) 推荐(0)

selenium+python爬虫环境搭建

摘要：前言：准备使用selenium爬取网站数据，先搭建selenium+python爬虫环境搭建系统环境： 64位win10系统，同时装python2.7和python3.6两个版本，IDE为pycharm 安装selenium 进入cmd命令行窗口，敲入以下代码 python便会自动下载和安装se 阅读全文

posted @ 2017-09-29 09:53 嶙羽阅读(452) 评论(0) 推荐(0)

嶙羽

随笔分类 - python爬虫

公告