Eunuch_Li

2018年7月20日

摘要：在命令窗口 pip install 从网站下载库 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 窗口命令下载访问的如果是外国网站,下载会很慢, 将命令窗口默认下载位置设置成豆瓣源镜像下载操作如下在电脑用户文件中查找pip文件,有就进入,没有就创建一个阅读全文

posted @ 2018-07-20 10:33 Eunuch_Li 阅读(153) 评论(0) 推荐(0)

2018年7月14日

邮件发送 smtplib

摘要：恢复内容开始推展恢复内容结束阅读全文

posted @ 2018-07-14 12:05 Eunuch_Li 阅读(227) 评论(0) 推荐(0)

爬虫 ItemLoader

摘要：流程在爬虫py中, 在item 中阅读全文

posted @ 2018-07-14 09:48 Eunuch_Li 阅读(274) 评论(0) 推荐(0)

爬虫异步数据写入框架 (adbapi)

摘要：数据库pymysql的commit()和execute()在提交数据时，都是同步提交至数据库，由于scrapy框架数据的解析和异步多线程的，所以scrapy的数据解析速度，要远高于数据的写入数据库的速度。如果数据写入过慢，会造成数据库写入的阻塞，影响数据库写入的效率。通过多线程异步的形式对数据进行写入，可以提高数据的写入速度。使用twisted异步IO框架，实现数据的异步写入。 from tw... 阅读全文

posted @ 2018-07-14 09:28 Eunuch_Li 阅读(2136) 评论(0) 推荐(0)

2018年7月7日

Scrapy框架----pipeline---------数据保存EXCEL

摘要：为了让pipeline.py生效，还需要在settings.py文件中增加设置，内容如下：阅读全文

posted @ 2018-07-07 15:02 Eunuch_Li 阅读(2007) 评论(0) 推荐(1)

2018年6月13日

爬虫 xpath (数据提取)

摘要： xpath 是数据提取的一种常用的方法 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为阅读全文

posted @ 2018-06-13 18:12 Eunuch_Li 阅读(5411) 评论(0) 推荐(0)

2018年6月9日

爬虫大概了解下爬虫的

摘要： # 爬虫网络请求方式：urllib(模块), requests(库), scrapy, pyspider(框架)# 爬虫数据提取方式：正则表达式, bs4, lxml, xpath, css哪种方法都可以用,可以根据实际情况选用方式爬取静态页面比较好爬取,一般的措施是cookie中登录信息,或者c 阅读全文

posted @ 2018-06-09 11:17 Eunuch_Li 阅读(139) 评论(0) 推荐(0)

爬虫 urllib.request 模块

摘要：爬虫网络请求方式的一种爬虫数据提取方式我们用的是正则表达式我们用到的： re模块在我的随笔中有这个 Request 用来创建请求对象 urlopen 发送请求导入： res中的数据可能含有一些我们不需要的字符串注:因为我们用的正则匹配的对象是字符串,所以匹配出来的可能含一些杂乱的字符串所阅读全文

posted @ 2018-06-09 11:12 Eunuch_Li 阅读(195) 评论(0) 推荐(0)

2018年6月8日

爬虫 re 模块 (正则表达式)

摘要：爬虫数据提取方式的一种 re：是用于提起字符串内容的模块我们用到的方法有: re.compile() 创建正则正则对象 re.findall() 匹配查找,返回的是列表 re.S 可以将正则的搜索域不在是一行,而是整个html字符串分为三个步骤: 一、创建正则对象二、匹配查找三、提取数据保存阅读全文

posted @ 2018-06-08 20:53 Eunuch_Li 阅读(782) 评论(0) 推荐(0)

公告