爬虫 - 随笔分类 - “人生苦短”

scrapy中xpath、css用法

摘要：一、实验环境 1.Windows7x64_SP1 2.anaconda3 + python3.7.3(anaconda集成，不需单独安装) 3.scrapy1.6.0 二、用法举例 1.开启scrapy shell，在命令行输入如下命令：结果如下： 2.提取a节点 xpath中用法 xpath中用阅读全文

posted @ 2019-08-18 08:32 “人生苦短” 阅读(2931) 评论(0) 推荐(0)

python的urlparse

摘要：urlparse主要是URL的分解和拼接，分析出URL中的各项参数，可以被其他的URL使用。主要的函数有： 1、urlparse 将URL分解为6个片段，返回一个元组，包括协议、基地址、相对地址等等 import urlparse url = urlparse.urlparse('http://b 阅读全文

posted @ 2017-08-22 16:17 “人生苦短” 阅读(1158) 评论(0) 推荐(0)

【转】HTTP Header 详解

摘要：HTTP（HyperTextTransferProtocol）即超文本传输协议，目前网页传输的的通用协议。HTTP协议采用了请求/响应模型，浏览器或其他客户端发出请求，服务器给与响应。就整个网络资源传输而言，包括message-header和message-body两部分。首先传递message- 阅读全文

posted @ 2017-08-22 14:44 “人生苦短” 阅读(267) 评论(0) 推荐(0)

爬虫问题汇总 + 解决

摘要：1.如何使用正则表达式匹配中文使用其中的\x80-\xfff，网上有些教程写为\x80-\xff，实际使用中发现只能匹配双字节的中文，个人更改为三字节。 2.匹配到的中文，如何正确打印、不乱码 3.urllib.urlretrieve函数无超时参数，如何解决网上有说在socket中设置timeo 阅读全文

posted @ 2017-08-20 12:51 “人生苦短” 阅读(426) 评论(0) 推荐(0)

Python之scrapy实例1

摘要：下文参考：http://www.jb51.net/article/57183.htm 个人也是稍加整理，修改其中的一些错误，这些错误与scrapy版本选择有关，个环境：Win7x64_SP1 + Python2.7 + scrapy1.1 另外例子中的URL（http://www.dmoz.org/ 阅读全文

posted @ 2016-05-28 17:28 “人生苦短” 阅读(562) 评论(0) 推荐(0)

Python之scrapy安装

摘要：1.按照网上教程一步步实验，运行时报错：个人使用的是scrapy0.14.4，搜索得到的答案是scrapy版本过低，于是乎个人又去官网下载最新版scrapy，下载的source文件。安装过程中又提示错误：坑不是一般的多啊，官网你的节操何在！解决方法：在python的Libsite-packa 阅读全文

posted @ 2016-05-28 15:24 “人生苦短” 阅读(228) 评论(0) 推荐(0)

python中html解析-Beautiful Soup

摘要：1. Beautiful Soup的简介简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的阅读全文

posted @ 2016-05-15 19:29 “人生苦短” 阅读(7605) 评论(0) 推荐(1)

python之HTMLParser解析HTML文档

摘要：HTMLParser是Python自带的模块，使用简单，能够很容易的实现HTML文件的分析。本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类，重定义函数： handle_starttag( tag, attrs) handle_startendtag 阅读全文

posted @ 2016-04-22 11:30 “人生苦短” 阅读(5269) 评论(0) 推荐(1)

python之爬虫

摘要：一、从网页爬下字符串清除特殊字符说明：如上函数用以过滤/\:*?'<>| 以及table、空格（文件夹、文件名中也尽量不要使用空格）阅读全文

posted @ 2016-01-27 10:42 “人生苦短” 阅读(303) 评论(0) 推荐(0)

风清扬001

随笔分类 - 爬虫

公告