摘要:
把电影天堂数据存入MySQL数据库 - 增量爬取 # 思路 # 1、MySQL中新建表 urltab,存储所有爬取过的链接的指纹 # 2、在爬取之前,先判断该指纹是否爬取过,如果爬取过,则不再继续爬取 1、建库建表 # 建库建表 create database filmskydb charset u 阅读全文
摘要:
# 整体思路 1、爬取一级页面,提取 所需数据+链接,继续跟进 2、爬取二级页面,提取 所需数据+链接,继续跟进 3、... ... # 代码实现思路 1、所有数据最终都会在一级页面遍历每条数据时全部拿到 2、避免重复代码 - 请求、解析需定义函数 电影天堂二级页面抓取案例 领取任务 # 地址 电影 阅读全文
摘要:
MongoDB数据库 MongoDB是一个基于磁盘的 非关系型 (key-value)数据库, value为json串 MySQL: 库 表 表记录 MongoDB: 库 集合 文档 pymongo操作mongodb数据库 import pymongo # 1.数据库连接对象 conn=py 阅读全文
摘要:
1、在数据库中建库建表 # 连接到mysql数据库 mysql -h127.0.0.1 -uroot -p123456 # 建库建表 create database maoyandb charset utf8; use maoyandb; create table filmtab( name var 阅读全文
摘要:
乱码解决方案 Windows系统下: 记事本打开csv文件 ——>另存为(选择编码:ansy) 阅读全文
摘要:
作用 将爬取的数据存放到本地的csv文件中 使用流程 1、导入模块 2、打开csv文件 3、初始化写入对象 4、写入数据(参数为列表) import csv with open('film.csv','w') as f: writer = csv.writer(f) writer.writero 阅读全文
摘要:
1、爬取网站基本步骤: 确定网页是动态或静态类型 确定url格式 发送请求 获取请求响应 解析响应数据,获取想要数据 保存数据(本地文件、数据库) 2、案例演示: 1、大致程序框架: # 程序结构 class xxxSpider(object): def __init__(self): # 定义常用 阅读全文
摘要:
re模块使用流程 方法一 r_list=re.findall('正则表达式',html,re.S) # 如果不使用re.S参数,则只在每一行内进行匹配,如果一行没有,就换下一行重新开始。 # 而使用re.S参数以后,正则表达式会将这个字符串作为一个整体,在整体中进行匹配。 方法二 # 1、创建正 阅读全文
摘要:
1、模块名及导入 模块 # 模块名 urllib.parse # 导入import urllib.parsefrom urllib import parse 作用 给URL地址中查询参数进行编码 编码前:https://www.baidu.com/s?wd=美女 编码后:https://www.ba 阅读全文
摘要:
自己整理一个User-Agent模块,方便日后拿来就能用: 1、利用 fake_useragent from fake_useragent import UserAgent # 随机生成1个User-Agent def get_headers(): ua = UserAgent() useragen 阅读全文
摘要:
百度搜索User-Agent: 百度 PC UA Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) Mozilla/5.0 (compatible; Baiduspider-rend 阅读全文
摘要:
Spider --Urllib3 使用简介 Spider --urlilib.request.Request 请求模块 简单使用 Spider --爬虫请求模块 requests Spider -- 各大搜索引擎爬虫:User-Agent Spider -- User-Agent 个人整理小模块 S 阅读全文
摘要:
1、安装 Linux sudo pip3 install requests Windows # 进入cmd命令行 python -m pip install requests 2、用法1:requests.get() 作用 # 向网站发起请求,并获取响应对象 res = requests.get(u 阅读全文
摘要:
process_start_time = time.time() print('开始数据处理') # process function print('结束数据处理') process_stop_time = time.time() # 差的时间戳 diff_time = process_stop_t 阅读全文