Corey0606 - 博客园

2018年12月14日

摘要：用yield callback 阅读全文

posted @ 2018-12-14 16:12 Corey0606 阅读(492) 评论(0) 推荐(0) 编辑

摘要：需求：将爬取到的数据值分别存储到本地磁盘、redis数据库、mysql数据。 1.需要在管道文件中编写对应平台的管道类 2.在配置文件中对自定义的管道类进行生效操作（在pipelines里面定义的类，加进settings.py里面 pipelines对应的里面，后面数字大小无所谓） pipeline 阅读全文

posted @ 2018-12-14 11:37 Corey0606 阅读(193) 评论(0) 推荐(0) 编辑

2018年12月13日

scrapy持久化存储

摘要：持久化存储操作： a.磁盘文件 a) 基于终端指令 i. 保证parse方法返回一个可迭代类型的对象（存储解析到的页面内容） ii. 使用终端指令完成数据存储到指定磁盘文件的操作 1. scrapy crawl 爬虫文件名称 -o 磁盘文件.后缀如（test.csv） b)基于管道 i. item 阅读全文

posted @ 2018-12-13 17:39 Corey0606 阅读(155) 评论(0) 推荐(0) 编辑

基础使用scrapy

摘要： 1.创建一个工程： scrapy startproject 工程名称 1. 目录结构： 2.在工程目录下创建一个爬虫文件 1.cd 工程 2. scrapy genspider 爬虫文件的名称起始的url 3.对应的文件中编写爬虫程序来完成爬虫的相关操作 4.配置文件的编写修改将setting 阅读全文

posted @ 2018-12-13 09:54 Corey0606 阅读(140) 评论(0) 推荐(0) 编辑

2018年12月12日

日志记录操作

摘要：日志可以根据级别改变阅读全文

posted @ 2018-12-12 11:29 Corey0606 阅读(188) 评论(0) 推荐(0) 编辑

自动登录码云

摘要：登录以后看私密仓库，拒绝递归式进入阅读全文

posted @ 2018-12-12 11:25 Corey0606 阅读(188) 评论(0) 推荐(0) 编辑

实现数据同步 -----将post, get 码云私有仓库

摘要：在爬虫递归操作被拒绝时，可采取需要爬取的页面刷新捕捉Network里面的请求包，拿取requestheaders全部写入即可阅读全文

posted @ 2018-12-12 11:23 Corey0606 阅读(540) 评论(0) 推荐(0) 编辑

邮件接口修改信息提示

摘要：此处运用到QQ邮箱账号跟授权码阅读全文

posted @ 2018-12-12 11:18 Corey0606 阅读(187) 评论(0) 推荐(0) 编辑

2018年12月10日

帮同学爬取某官方公众号的众多企业信息

摘要： import requests import xlwt from bs4 import BeautifulSoup from threading import Thread # 725 1160 def main(): workbook = xlwt.Workbook() sheet1 = workbook.add_sheet('test', cell_overwrite_ok=... 阅读全文

posted @ 2018-12-10 17:30 Corey0606 阅读(210) 评论(0) 推荐(0) 编辑

sqlite3相应的注意点

摘要：注意：sqlite3在execute("sql语句") sqlite3只支持？，：=占位符不支持%s 但是sql语句作为变量execute(sql)里只可以用%s作占位符，等号的另一遍要加a = 'b' 模糊查询 sql语句like用法显示结果为'%字段%'，上述查询结果为关键词里包含字段的阅读全文

posted @ 2018-12-10 17:24 Corey0606 阅读(484) 评论(0) 推荐(0) 编辑

COREY

公告