blackpearl9 - 博客园

摘要：

之前做过很多微信小程序的爬虫任务，今天做下记录，防止很久不用后就会忘记，微信小程序分为两大类： 1、是不需要登录的（这种的话不做分析，毕竟没什么反爬） 2、需要登录的 2.1 登录一次之后token永久有效 2.2 登录一次token几分钟内到几小时内失效 2.2.1 登录后一段时间后token时候阅读全文

posted @ 2021-09-26 14:05 blackpearl9 阅读(1915) 评论(0) 推荐(0)

关于URL encode和parse

摘要： from urllib import parses = 'https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&tn=baidu&wd=urlencode&oq=%25E5%258D%259A%25E5%25AE%25A2%25E5%259B%25AD&rsv_ 阅读全文

posted @ 2020-02-26 21:05 blackpearl9 阅读(284) 评论(0) 推荐(0)

requests访问页面时set-cookie获取cookie

摘要： import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0', 'cookie': '' } url = "http 阅读全文

posted @ 2020-02-26 11:26 blackpearl9 阅读(5913) 评论(0) 推荐(2)

在反序列化数据的时候报错raise JSONDecodeError("Expecting value", s, err.value) from None json.decode

摘要：今天在爬取某网站数据内容适合，通过正则匹配拿到了需要的内容字符串，但是在反序列化的时候竟然报错，大概意思知道他不是json的期望值，那么我就会想是不是数据内有一些内容是由于编码的问题导致的呢？因为之前爬一些内容时候在打印一些爬到的东西这些内容是打印不出来的，因为python中的打印好像用的是gbk默阅读全文

posted @ 2020-02-21 17:21 blackpearl9 阅读(14336) 评论(1) 推荐(0)

爬取经纬度

摘要： import jsonimport requestsheaders = { # "Host": "www.dianping.com", # "Connection": "keep-alive", # "Accept": "application/json, text/javascript, */*; 阅读全文

posted @ 2019-12-14 22:12 blackpearl9 阅读(91) 评论(0) 推荐(0)

关于selenium添加使用代理ip

摘要：最近在爬某个网站，发现这个网站的反爬太厉害了，正常时候的访问有时候都会给你弹出来验证，验证你是不是蜘蛛，而且requests发的请求携带了请求头信息，cookie信息，代理ip，也能识别是爬虫，他应该是有个ssl证书的机制，即使你关闭了也能检测到，好厉害，所以我就想着双管齐下，你跳出来是验证我就se 阅读全文

posted @ 2019-12-08 16:44 blackpearl9 阅读(11521) 评论(3) 推荐(0)

开启线程及线程锁、线程安全

摘要：加锁虽然会降低执行效率，但是保证了数据的稳定性和安全性由于线程中的数据共享，以及线程的并发机制，和cpu时间片轮转机制，所以导致有可能某线程未全部运行完毕，导致线程切换导致数据的混乱。 a = 0 def add_f(lock): global a for i in range(200000): 阅读全文

posted @ 2019-12-04 17:03 blackpearl9 阅读(176) 评论(0) 推荐(0)

普通验证码的简单识别

摘要： https://cuiqingcai.com/7035.html 作者写的挺好，好多爬虫的内容都有以下模块的安装 https://www.cnblogs.com/Jimc/p/9772930.html 阅读全文

posted @ 2019-12-04 16:41 blackpearl9 阅读(210) 评论(0) 推荐(0)

守护进程

摘要：把子进程设置成守护进程之后，守护进程会随着主进程的结束而结束，而其他的子进程会执行到自身结束 import time from multiprocessing import Process def son1(a,b): while True: print('is alive') time.sleep 阅读全文

posted @ 2019-12-04 15:10 blackpearl9 阅读(154) 评论(0) 推荐(0)

主动开启进程与join方法

摘要：使用multiprocessing.Process来开启进程 import os import time from multiprocessing import Process def eat(): print('start eating',os.getpid()) time.sleep(1) pr 阅读全文

posted @ 2019-12-04 14:45 blackpearl9 阅读(170) 评论(0) 推荐(0)

导航

2021年9月26日

2020年2月26日

2020年2月21日

2019年12月14日

2019年12月8日

2019年12月4日


博客园 © 2004-2026 浙公网安备 33010602011771号浙ICP备2021040463号-3