Be-myself - 博客园

2020年4月6日

摘要：乱码解决方案 Windows系统下：记事本打开csv文件 ——>另存为（选择编码：ansy）阅读全文

posted @ 2020-04-06 17:19 Be-myself 阅读(307) 评论(0) 推荐(0) 编辑

摘要：作用将爬取的数据存放到本地的csv文件中使用流程 1、导入模块 2、打开csv文件 3、初始化写入对象 4、写入数据(参数为列表) import csv with open('film.csv','w') as f: writer = csv.writer(f) writer.writero 阅读全文

posted @ 2020-04-06 17:18 Be-myself 阅读(370) 评论(0) 推荐(0) 编辑

Spider -- 常规爬取网站步骤

摘要： 1、爬取网站基本步骤：确定网页是动态或静态类型确定url格式发送请求获取请求响应解析响应数据，获取想要数据保存数据（本地文件、数据库） 2、案例演示： 1、大致程序框架： # 程序结构 class xxxSpider(object): def __init__(self): # 定义常用阅读全文

posted @ 2020-04-06 17:14 Be-myself 阅读(1163) 评论(0) 推荐(0) 编辑

Spider -- re 正则解析模块

摘要： re模块使用流程方法一 r_list=re.findall('正则表达式',html,re.S) # 如果不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始。 # 而使用re.S参数以后，正则表达式会将这个字符串作为一个整体，在整体中进行匹配。方法二 # 1、创建正阅读全文

posted @ 2020-04-06 16:03 Be-myself 阅读(261) 评论(0) 推荐(0) 编辑

Spider -- Url地址编码模块（urlencode({dict})、quote(string)、unquote(string)）

摘要： 1、模块名及导入模块 # 模块名 urllib.parse # 导入import urllib.parsefrom urllib import parse 作用给URL地址中查询参数进行编码编码前：https://www.baidu.com/s?wd=美女编码后：https://www.ba 阅读全文

posted @ 2020-04-06 15:40 Be-myself 阅读(340) 评论(0) 推荐(0) 编辑

Spider -- User-Agent 个人整理小模块

摘要：自己整理一个User-Agent模块，方便日后拿来就能用： 1、利用 fake_useragent from fake_useragent import UserAgent # 随机生成1个User-Agent def get_headers(): ua = UserAgent() useragen 阅读全文

posted @ 2020-04-06 11:53 Be-myself 阅读(523) 评论(0) 推荐(0) 编辑

Spider -- 各大搜索引擎爬虫：User-Agent

摘要：百度搜索User-Agent：百度 PC UA Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) Mozilla/5.0 (compatible; Baiduspider-rend 阅读全文

posted @ 2020-04-06 11:19 Be-myself 阅读(5759) 评论(1) 推荐(2) 编辑

Spider --目录

摘要： Spider --Urllib3 使用简介 Spider --urlilib.request.Request 请求模块简单使用 Spider --爬虫请求模块 requests Spider -- 各大搜索引擎爬虫：User-Agent Spider -- User-Agent 个人整理小模块 S 阅读全文

posted @ 2020-04-06 10:34 Be-myself 阅读(177) 评论(0) 推荐(0) 编辑

Spider --爬虫请求模块 requests

摘要： 1、安装 Linux sudo pip3 install requests Windows # 进入cmd命令行 python -m pip install requests 2、用法1：requests.get() 作用 # 向网站发起请求,并获取响应对象 res = requests.get(u 阅读全文

posted @ 2020-04-06 10:03 Be-myself 阅读(332) 评论(0) 推荐(0) 编辑

Python --time 计时小程序

摘要： process_start_time = time.time() print('开始数据处理') # process function print('结束数据处理') process_stop_time = time.time() # 差的时间戳 diff_time = process_stop_t 阅读全文

posted @ 2020-04-06 09:14 Be-myself 阅读(1144) 评论(0) 推荐(0) 编辑

The snail

公告