随笔分类 -  爬虫

摘要:一、实验环境 1.Windows7x64_SP1 2.anaconda3 + python3.7.3(anaconda集成,不需单独安装) 3.scrapy1.6.0 二、用法举例 1.开启scrapy shell,在命令行输入如下命令: 结果如下: 2.提取a节点 xpath中用法 xpath中用 阅读全文
posted @ 2019-08-18 08:32 “人生苦短” 阅读(2911) 评论(0) 推荐(0) 编辑
摘要:urlparse主要是URL的分解和拼接,分析出URL中的各项参数,可以被其他的URL使用。 主要的函数有: 1、urlparse 将URL分解为6个片段,返回一个元组,包括协议、基地址、相对地址等等 import urlparse url = urlparse.urlparse('http://b 阅读全文
posted @ 2017-08-22 16:17 “人生苦短” 阅读(1143) 评论(0) 推荐(0) 编辑
摘要:HTTP(HyperTextTransferProtocol)即超文本传输协议,目前网页传输的的通用协议。HTTP协议采用了请求/响应模型,浏览器或其他客户端发出请求,服务器给与响应。就整个网络资源传输而言,包括message-header和message-body两部分。首先传递message-  阅读全文
posted @ 2017-08-22 14:44 “人生苦短” 阅读(263) 评论(0) 推荐(0) 编辑
摘要:1.如何使用正则表达式匹配中文 使用其中的\x80-\xfff,网上有些教程写为\x80-\xff,实际使用中发现只能匹配双字节的中文,个人更改为三字节。 2.匹配到的中文,如何正确打印、不乱码 3.urllib.urlretrieve函数无超时参数,如何解决 网上有说在socket中设置timeo 阅读全文
posted @ 2017-08-20 12:51 “人生苦短” 阅读(412) 评论(0) 推荐(0) 编辑
摘要:下文参考:http://www.jb51.net/article/57183.htm 个人也是稍加整理,修改其中的一些错误,这些错误与scrapy版本选择有关,个环境:Win7x64_SP1 + Python2.7 + scrapy1.1 另外例子中的URL(http://www.dmoz.org/ 阅读全文
posted @ 2016-05-28 17:28 “人生苦短” 阅读(548) 评论(0) 推荐(0) 编辑
摘要:1.按照网上教程一步步实验,运行时报错: 个人使用的是scrapy0.14.4,搜索得到的答案是scrapy版本过低,于是乎个人又去官网下载最新版scrapy,下载的source文件。 安装过程中又提示错误: 坑不是一般的多啊,官网你的节操何在!解决方法: 在python的Libsite-packa 阅读全文
posted @ 2016-05-28 15:24 “人生苦短” 阅读(218) 评论(0) 推荐(0) 编辑
摘要:1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的 阅读全文
posted @ 2016-05-15 19:29 “人生苦短” 阅读(7575) 评论(0) 推荐(1) 编辑
摘要:HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析。本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义函数: handle_starttag( tag, attrs) handle_startendtag 阅读全文
posted @ 2016-04-22 11:30 “人生苦短” 阅读(5247) 评论(0) 推荐(1) 编辑
摘要:一、从网页爬下字符串清除特殊字符 说明:如上函数用以过滤/\:*?'<>| 以及table、空格(文件夹、文件名中也尽量不要使用空格) 阅读全文
posted @ 2016-01-27 10:42 “人生苦短” 阅读(297) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示