2020 年 4月 6 日随笔档案 - Be-myself

2020年4月6日

摘要：把电影天堂数据存入MySQL数据库 - 增量爬取 # 思路 # 1、MySQL中新建表 urltab,存储所有爬取过的链接的指纹 # 2、在爬取之前,先判断该指纹是否爬取过,如果爬取过,则不再继续爬取 1、建库建表 # 建库建表 create database filmskydb charset u 阅读全文

posted @ 2020-04-06 18:13 Be-myself 阅读(362) 评论(0) 推荐(0) 编辑

Spider -- 多级页面爬取

摘要： # 整体思路 1、爬取一级页面,提取所需数据+链接,继续跟进 2、爬取二级页面,提取所需数据+链接,继续跟进 3、... ... # 代码实现思路 1、所有数据最终都会在一级页面遍历每条数据时全部拿到 2、避免重复代码 - 请求、解析需定义函数电影天堂二级页面抓取案例领取任务 # 地址电影阅读全文

posted @ 2020-04-06 18:02 Be-myself 阅读(838) 评论(0) 推荐(0) 编辑

Spider -- 数据持久化之 MongoDB

摘要： MongoDB数据库 MongoDB是一个基于磁盘的非关系型（key-value）数据库， value为json串 MySQL：库表表记录 MongoDB：库集合文档 pymongo操作mongodb数据库 import pymongo # 1.数据库连接对象 conn=py 阅读全文

posted @ 2020-04-06 17:55 Be-myself 阅读(297) 评论(0) 推荐(0) 编辑

Spider -- 数据持久化之 MySQL

摘要： 1、在数据库中建库建表 # 连接到mysql数据库 mysql -h127.0.0.1 -uroot -p123456 # 建库建表 create database maoyandb charset utf8; use maoyandb; create table filmtab( name var 阅读全文

posted @ 2020-04-06 17:27 Be-myself 阅读(356) 评论(0) 推荐(0) 编辑

Spider -- 乱码解决方案 Windows系统下

摘要：乱码解决方案 Windows系统下：记事本打开csv文件 ——>另存为（选择编码：ansy）阅读全文

posted @ 2020-04-06 17:19 Be-myself 阅读(307) 评论(0) 推荐(0) 编辑

Spider -- 数据持久化之 csv文件

摘要：作用将爬取的数据存放到本地的csv文件中使用流程 1、导入模块 2、打开csv文件 3、初始化写入对象 4、写入数据(参数为列表) import csv with open('film.csv','w') as f: writer = csv.writer(f) writer.writero 阅读全文

posted @ 2020-04-06 17:18 Be-myself 阅读(370) 评论(0) 推荐(0) 编辑

Spider -- 常规爬取网站步骤

摘要： 1、爬取网站基本步骤：确定网页是动态或静态类型确定url格式发送请求获取请求响应解析响应数据，获取想要数据保存数据（本地文件、数据库） 2、案例演示： 1、大致程序框架： # 程序结构 class xxxSpider(object): def __init__(self): # 定义常用阅读全文

posted @ 2020-04-06 17:14 Be-myself 阅读(1166) 评论(0) 推荐(0) 编辑

Spider -- re 正则解析模块

摘要： re模块使用流程方法一 r_list=re.findall('正则表达式',html,re.S) # 如果不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始。 # 而使用re.S参数以后，正则表达式会将这个字符串作为一个整体，在整体中进行匹配。方法二 # 1、创建正阅读全文

posted @ 2020-04-06 16:03 Be-myself 阅读(261) 评论(0) 推荐(0) 编辑

Spider -- Url地址编码模块（urlencode({dict})、quote(string)、unquote(string)）

摘要： 1、模块名及导入模块 # 模块名 urllib.parse # 导入import urllib.parsefrom urllib import parse 作用给URL地址中查询参数进行编码编码前：https://www.baidu.com/s?wd=美女编码后：https://www.ba 阅读全文

posted @ 2020-04-06 15:40 Be-myself 阅读(340) 评论(0) 推荐(0) 编辑

Spider -- User-Agent 个人整理小模块

摘要：自己整理一个User-Agent模块，方便日后拿来就能用： 1、利用 fake_useragent from fake_useragent import UserAgent # 随机生成1个User-Agent def get_headers(): ua = UserAgent() useragen 阅读全文

posted @ 2020-04-06 11:53 Be-myself 阅读(524) 评论(0) 推荐(0) 编辑

Spider -- 各大搜索引擎爬虫：User-Agent

摘要：百度搜索User-Agent：百度 PC UA Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) Mozilla/5.0 (compatible; Baiduspider-rend 阅读全文

posted @ 2020-04-06 11:19 Be-myself 阅读(5769) 评论(1) 推荐(2) 编辑

Spider --目录

摘要： Spider --Urllib3 使用简介 Spider --urlilib.request.Request 请求模块简单使用 Spider --爬虫请求模块 requests Spider -- 各大搜索引擎爬虫：User-Agent Spider -- User-Agent 个人整理小模块 S 阅读全文

posted @ 2020-04-06 10:34 Be-myself 阅读(177) 评论(0) 推荐(0) 编辑

Spider --爬虫请求模块 requests

摘要： 1、安装 Linux sudo pip3 install requests Windows # 进入cmd命令行 python -m pip install requests 2、用法1：requests.get() 作用 # 向网站发起请求,并获取响应对象 res = requests.get(u 阅读全文

posted @ 2020-04-06 10:03 Be-myself 阅读(333) 评论(0) 推荐(0) 编辑

Python --time 计时小程序

摘要： process_start_time = time.time() print('开始数据处理') # process function print('结束数据处理') process_stop_time = time.time() # 差的时间戳 diff_time = process_stop_t 阅读全文

posted @ 2020-04-06 09:14 Be-myself 阅读(1144) 评论(0) 推荐(0) 编辑

The snail

公告