摘要: Python Flask 框架 .............. 数据库链接池 pip3 install pymysql dbutils 简单实现 ''' @Date : 2020-11-12 20:02:49 @LastEditors : Pineapple @LastEditTime : 2020- 阅读全文
posted @ 2022-04-06 15:08 王舰 阅读(981) 评论(0) 推荐(0) 编辑
摘要: 随便写一个装饰器: def pine(func): def inner(*args, **kwargs): """This is inner""" return func(*args, **kwargs) return inner @pine def apple(): """This is appl 阅读全文
posted @ 2022-04-06 15:07 王舰 阅读(180) 评论(0) 推荐(0) 编辑
摘要: Numpy中,给定范围内取随机数: numpy.random.randint(low, high=None, size=None, dtype=int) 从低(包含)到高(不含)返回随机整数。 如果只传参数low, 那么得到的随机数将小于low(不包括low), 随机值的区间为[0, low) >> 阅读全文
posted @ 2022-04-06 15:07 王舰 阅读(124) 评论(0) 推荐(0) 编辑
摘要: ## 一、问题描述 代码 ```python ''' @Date : 2020-10-20 14:17:15 @LastEditors : Pineapple @LastEditTime : 2020-10-30 17:42:21 @FilePath : /Bus_station/#test.py 阅读全文
posted @ 2022-04-06 15:06 王舰 阅读(201) 评论(0) 推荐(0) 编辑
摘要: ## 一、前言 今天是1024程序员节,大家节日快乐。听说今天发博客会得一枚1024勋章,一年一次呢,真是稀有。写篇博客顺便把这几天学习的相关知识总结一下。 ## 二、为什么要学习反爬虫 从暑假算起到现在,我也接触了4个月的爬虫,期间做过不少测试和实战,越往后学,越是难学。倒不是难在设计爬虫,编写P 阅读全文
posted @ 2022-04-06 15:05 王舰 阅读(1358) 评论(0) 推荐(0) 编辑
摘要: random.getrandbits(k) 返回带有 k 位随机的Python整数。 此方法随 MersenneTwister 生成器一起提供,其他一些生成器也可以将其作为API的可选部分提供。 如果可用,getrandbits() 启用 randrange() 来处理任意大范围。 在 3.9 版更 阅读全文
posted @ 2022-04-06 15:05 王舰 阅读(331) 评论(0) 推荐(0) 编辑
摘要: ## 一、前言 最近一直在折腾双系统的事情,我看了一下,大约有10天没写博客哈哈,也没咋学习。以后打算把deepin作为开发工具,折腾了几天系统,基本的环境jdk,python,vmware啥的都搭建好了,接下来终于可以回归爬虫的学习,不过在这前的头等大事还是抓包工具配置Charles。 ## 二、 阅读全文
posted @ 2022-04-06 15:04 王舰 阅读(602) 评论(0) 推荐(0) 编辑
摘要: ## 一、任务目标 针对一个文本的内容,提取其中的所有单词并去重 文本去重前 ![文本](https://img2023.cnblogs.com/blog/2119256/202308/2119256-20230811091738709-204887536.png) 去重后 ![去重后](https 阅读全文
posted @ 2022-04-06 15:03 王舰 阅读(459) 评论(0) 推荐(0) 编辑
摘要: ## 一、问题描述 ![在这里插入图片描述](https://img2023.cnblogs.com/blog/2119256/202308/2119256-20230811093115707-2147056981.png) ## 二、问题分析 之前都是写完程序后直接打包到集群上运行的,这样确实有点 阅读全文
posted @ 2022-04-06 15:02 王舰 阅读(499) 评论(0) 推荐(0) 编辑
摘要: ## 一、问题描述 本地运行MapReduce程序并不能像在集群上那样输出日志信息,而且还回报log4j的警告 ![在这里插入图片描述](https://img2023.cnblogs.com/blog/2119256/202308/2119256-20230811093205485-1756444 阅读全文
posted @ 2022-04-06 15:02 王舰 阅读(125) 评论(0) 推荐(0) 编辑
摘要: ## 一、MapReduce介绍 MapReduce是一个`分布式计算框架`,可以部署在Hadoop、Spark等大数据平台上,实现海量数据的并行计算。它采用“`分而治之`”的思想,将一个计算任务交给集群中的多台机器共同完成,之后再汇总成最终结果。 一般来说读取一个TB,PB级的文件,普通计算机的速 阅读全文
posted @ 2022-04-06 15:00 王舰 阅读(1337) 评论(0) 推荐(0) 编辑
摘要: ## 一、集群描述 主机:CentOS7.8 jdk1.8 hadoop、hive、hbase、zookeeper:CDH5.14.2 ||namenode|datanode1|datanode2| |--|--|-|-| |NameNode|✔(主)|✔(备)|✘| |DataNode|✔|✔|✔ 阅读全文
posted @ 2022-04-06 14:59 王舰 阅读(6756) 评论(1) 推荐(1) 编辑
摘要: ## Github项目链接: [https://github.com/Pineapple666/TaobaoSpider](https://github.com/Pineapple666/TaobaoSpider) ## 一、问题描述 我一开始写爬虫的时候,数据用的是Linux虚拟机的`mysql5 阅读全文
posted @ 2022-04-06 14:58 王舰 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 今天在DEBUG的时候又出现了一个问题,用Scrapy下载图片,需要重写ImagesPipeline类的item_completed方法。 书上代码如下: ```python def item_completed(self, results, item, info): image_paths = [ 阅读全文
posted @ 2022-04-06 14:50 王舰 阅读(443) 评论(0) 推荐(0) 编辑
摘要: ## 一、前言 大概是一个月前就开始做淘宝的爬虫了,从最开始的用selenium用户配置到selenium模拟登录,再到这次的post请求模拟登录。一共是三篇博客,记录了我爬取淘宝网的经历。期间也有朋友向我提出了不少问题,比如滑块失败,微博登录失败等,可以说用selenium模拟登录这方面,坑特别多 阅读全文
posted @ 2022-04-06 14:49 王舰 阅读(1764) 评论(5) 推荐(0) 编辑
摘要: ## 一、前言 Github源码链接:[https://github.com/Python3WebSpider/GithubLogin](https://github.com/Python3WebSpider/GithubLogin) 崔庆才:[https://cuiqingcai.com/8229 阅读全文
posted @ 2022-04-06 14:48 王舰 阅读(305) 评论(0) 推荐(0) 编辑
摘要: ![在这里插入图片描述](https://img2023.cnblogs.com/blog/2119256/202308/2119256-20230811093402601-1082738617.png) [承接上一篇博客,直接上代码,解析请看上篇。](https://blog.csdn.net/p 阅读全文
posted @ 2022-04-06 14:46 王舰 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 迭代器是生成器的一种,使用迭代器生成可迭代对象,可以避免创建巨大的列表或元组。 昨天DEBUG的时候,出现了一个BUG:TypeError: 'async_generator' object is not iterable,async_generator对象不可迭代 以下,是我的解决过程。 问题 ) 阅读全文
posted @ 2022-04-06 14:44 王舰 阅读(3957) 评论(0) 推荐(0) 编辑
摘要: **`博客跟新说明`**:[爬取时间已缩短至29.4s](https://blog.csdn.net/pineapple_C/article/details/108054727) <<<<==传送门== ## 一、前言 英雄联盟是一款很火的游戏,像我这种没玩过的都知道`疾风剑豪-亚索`,我便以此展示 阅读全文
posted @ 2022-04-06 14:43 王舰 阅读(487) 评论(0) 推荐(0) 编辑
摘要: ## 一、前言 最近一直在搞滑块验证码,发现它比之前的极验验证码又提升了一个档次。验证码只提供两张拼图,不提供原图。所以通过对比两张图片来寻找缺口的方法已经不适用了!所以要用一些图像处理和计算机视觉相关的方法,比如openCV。但是这个东西太深奥了,又和python的另一个第三方库:numpy紧密结 阅读全文
posted @ 2022-04-06 14:42 王舰 阅读(3703) 评论(1) 推荐(1) 编辑