爬虫 - 随笔分类(第2页) - nick560

摘要：https://blog.csdn.net/fanhu6816/article/details/52223990 阅读全文

posted @ 2018-04-25 20:58 nick560 编辑

摘要：# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Requestfrom scrapy.selector import Selectorclass ChoutiSpider(scrapy.Spider): name = 'chou 阅读全文

posted @ 2018-04-09 19:42 nick560 编辑

Scrapy基础

摘要：一介绍 Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞（又名异步）的代码来实现并发。整体架构大致如下 The data flow in Scrapy is controlled by the executi 阅读全文

posted @ 2018-04-08 21:27 nick560 编辑

json

摘要：ps: parse()可以转成json对象，对象可以调用属性。例如：arg.status。合格的json对象：不合格的json对象：阅读全文

posted @ 2018-04-08 15:43 nick560 编辑

XPath

摘要：将字符串转换成对象： - 方式一： response.xpath('//div[@id='content-list']/div[@class='item']') - 方式二： from scrapy.selector import HtmlXPathSelector hxs = HtmlXPathS 阅读全文

posted @ 2018-03-28 20:59 nick560 编辑

数据库--->excel

摘要：依赖 Python2711 xlwt MySQLdb 数据库相关连接获取字段信息获取数据 Excel基础 workbook sheet 案例封装封装之后测试结果总结数据库数据导出为excel表格，也可以说是一个很常用的功能了。毕竟不是任何人都懂数据库操作语句的。下面先来看看完成的效阅读全文

posted @ 2018-03-21 08:33 nick560 编辑

PyQuery

摘要：html = '''<div class="wrap"> Hello, World <p>This is a paragraph.</p> </div>''' from pyquery import PyQuery as pqdoc = pq(html) 查 items=doc("#containe 阅读全文

posted @ 2018-03-13 17:54 nick560 编辑

json、pickle

摘要：A dumps (json字符串) loads B；序列化模块 Python中用于序列化的两个模块： json 跨平台跨语言的数据传输格式，用于【字符串】和【python基本数据类型】间进行转换 pickle python内置的数据传输格式，多用于二进制形式，用于【python特有的类型】和阅读全文

posted @ 2018-03-12 17:34 nick560 编辑

re模块

摘要：re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None。 re.search匹配整个字符串，直到找到一个匹配。只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None。 re. 阅读全文

posted @ 2018-03-12 17:31 nick560 编辑

Beautifulsoup模块

摘要：# 有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性: data_soup = BeautifulSoup('<div data-foo="value">foo!</div>','lxml') # data_soup.find_all(data-foo="value") #报错：阅读全文

posted @ 2018-03-10 22:04 nick560 编辑

爬虫基本原理

摘要：一爬虫是什么二爬虫的基本流程三请求与响应四 Request 五 Response 六总结一爬虫是什么二爬虫的基本流程三请求与响应四 Request from urllib.parse import urlencode import requests headers={ ' 阅读全文

posted @ 2018-03-06 16:39 nick560 编辑

RE正则常用

摘要：http://tool.chinaz.com/regex 一、校验数字的表达式 1 数字：^[0-9]*$ 2 n位的数字：^\d{n}$ 3 至少n位的数字：^\d{n,}$ 4 m-n位的数字：^\d{m,n}$ 5 零和非零开头的数字：^(0|[1-9][0-9]*)$ 6 非零开头的最多带两阅读全文

posted @ 2018-01-16 19:50 nick560 编辑

HTML

摘要：转自http://www.cnblogs.com/liwenzhou/p/7988087.html HTML介绍浏览器发请求 --> HTTP协议 --> 服务端接收请求 --> 服务端返回响应 --> 服务端把HTML文件内容发给浏览器 --> 浏览器渲染页面 HTML是什么？超文本标记语言（阅读全文

posted @ 2017-12-21 20:15 nick560 编辑

nick560

随笔分类 - 爬虫

公告