随笔分类 -  爬虫

摘要:https://blog.csdn.net/fanhu6816/article/details/52223990 阅读全文
posted @ 2018-04-25 20:58 nick560 编辑
摘要:# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Requestfrom scrapy.selector import Selectorclass ChoutiSpider(scrapy.Spider): name = 'chou 阅读全文
posted @ 2018-04-09 19:42 nick560 编辑
摘要:一 介绍 Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发。整体架构大致如下 The data flow in Scrapy is controlled by the executi 阅读全文
posted @ 2018-04-08 21:27 nick560 编辑
摘要:ps: parse()可以转成json对象,对象可以调用属性。 例如:arg.status。 合格的json对象: 不合格的json对象: 阅读全文
posted @ 2018-04-08 15:43 nick560 编辑
摘要:将字符串转换成对象: - 方式一: response.xpath('//div[@id='content-list']/div[@class='item']') - 方式二: from scrapy.selector import HtmlXPathSelector hxs = HtmlXPathS 阅读全文
posted @ 2018-03-28 20:59 nick560 编辑
摘要:依赖 Python2711 xlwt MySQLdb 数据库相关 连接 获取字段信息 获取数据 Excel基础 workbook sheet 案例 封装 封装之后 测试结果 总结 数据库数据导出为excel表格,也可以说是一个很常用的功能了。毕竟不是任何人都懂数据库操作语句的。 下面先来看看完成的效 阅读全文
posted @ 2018-03-21 08:33 nick560 编辑
摘要:html = '''<div class="wrap"> Hello, World <p>This is a paragraph.</p> </div>''' from pyquery import PyQuery as pqdoc = pq(html) 查 items=doc("#containe 阅读全文
posted @ 2018-03-13 17:54 nick560 编辑
摘要:A dumps (json字符串) loads B; 序列化模块 Python中用于序列化的两个模块: json 跨平台跨语言的数据传输格式,用于【字符串】和 【python基本数据类型】 间进行转换 pickle python内置的数据传输格式,多用于二进制形式,用于【python特有的类型】 和 阅读全文
posted @ 2018-03-12 17:34 nick560 编辑
摘要:re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None。 re.search匹配整个字符串,直到找到一个匹配。只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。 re. 阅读全文
posted @ 2018-03-12 17:31 nick560 编辑
摘要:# 有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性: data_soup = BeautifulSoup('<div data-foo="value">foo!</div>','lxml') # data_soup.find_all(data-foo="value") #报错: 阅读全文
posted @ 2018-03-10 22:04 nick560 编辑
摘要:一 爬虫是什么 二 爬虫的基本流程 三 请求与响应 四 Request 五 Response 六 总结 一 爬虫是什么 二 爬虫的基本流程 三 请求与响应 四 Request from urllib.parse import urlencode import requests headers={ ' 阅读全文
posted @ 2018-03-06 16:39 nick560 编辑
摘要:http://tool.chinaz.com/regex 一、校验数字的表达式 1 数字:^[0-9]*$ 2 n位的数字:^\d{n}$ 3 至少n位的数字:^\d{n,}$ 4 m-n位的数字:^\d{m,n}$ 5 零和非零开头的数字:^(0|[1-9][0-9]*)$ 6 非零开头的最多带两 阅读全文
posted @ 2018-01-16 19:50 nick560 编辑
摘要:转自http://www.cnblogs.com/liwenzhou/p/7988087.html HTML介绍 浏览器发请求 --> HTTP协议 --> 服务端接收请求 --> 服务端返回响应 --> 服务端把HTML文件内容发给浏览器 --> 浏览器渲染页面 HTML是什么? 超文本标记语言( 阅读全文
posted @ 2017-12-21 20:15 nick560 编辑