随笔分类 - 爬虫
摘要:一、实验环境 1.Windows7x64_SP1 2.anaconda3 + python3.7.3(anaconda集成,不需单独安装) 3.scrapy1.6.0 二、用法举例 1.开启scrapy shell,在命令行输入如下命令: 结果如下: 2.提取a节点 xpath中用法 xpath中用
阅读全文
摘要:urlparse主要是URL的分解和拼接,分析出URL中的各项参数,可以被其他的URL使用。 主要的函数有: 1、urlparse 将URL分解为6个片段,返回一个元组,包括协议、基地址、相对地址等等 import urlparse url = urlparse.urlparse('http://b
阅读全文
摘要:HTTP(HyperTextTransferProtocol)即超文本传输协议,目前网页传输的的通用协议。HTTP协议采用了请求/响应模型,浏览器或其他客户端发出请求,服务器给与响应。就整个网络资源传输而言,包括message-header和message-body两部分。首先传递message-
阅读全文
摘要:1.如何使用正则表达式匹配中文 使用其中的\x80-\xfff,网上有些教程写为\x80-\xff,实际使用中发现只能匹配双字节的中文,个人更改为三字节。 2.匹配到的中文,如何正确打印、不乱码 3.urllib.urlretrieve函数无超时参数,如何解决 网上有说在socket中设置timeo
阅读全文
摘要:下文参考:http://www.jb51.net/article/57183.htm 个人也是稍加整理,修改其中的一些错误,这些错误与scrapy版本选择有关,个环境:Win7x64_SP1 + Python2.7 + scrapy1.1 另外例子中的URL(http://www.dmoz.org/
阅读全文
摘要:1.按照网上教程一步步实验,运行时报错: 个人使用的是scrapy0.14.4,搜索得到的答案是scrapy版本过低,于是乎个人又去官网下载最新版scrapy,下载的source文件。 安装过程中又提示错误: 坑不是一般的多啊,官网你的节操何在!解决方法: 在python的Libsite-packa
阅读全文
摘要:1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的
阅读全文
摘要:HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析。本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义函数: handle_starttag( tag, attrs) handle_startendtag
阅读全文
摘要:一、从网页爬下字符串清除特殊字符 说明:如上函数用以过滤/\:*?'<>| 以及table、空格(文件夹、文件名中也尽量不要使用空格)
阅读全文