上一页 1 2 3 4 5 6 7 8 ··· 16 下一页
摘要: 现在多进程多线程已经是老生常谈了,协程也在最近几年流行起来。python中有协程库gevent,py web框架tornado中也用了gevent封装好的协程。本文主要介绍进程、线程和协程三者之间的区别。 一、概念 1、进程 进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进 阅读全文
posted @ 2021-03-12 19:39 淋哥 阅读(408) 评论(0) 推荐(0) 编辑
摘要: import multiprocessing import time def func(msg): time.sleep(1) print multiprocessing.current_process().name + '-' + msg def spider(): time.sleep(2) p 阅读全文
posted @ 2021-03-12 19:37 淋哥 阅读(3929) 评论(0) 推荐(2) 编辑
摘要: 1. 使用croniter 官方教程是:https://github.com/taichino/croniter 示例一:获得下次crontab执行的时间 from croniter import croniter from datetime import datetime print dateti 阅读全文
posted @ 2021-03-12 14:02 淋哥 阅读(4890) 评论(0) 推荐(0) 编辑
摘要: 1. 需要对一个java架包每天定时重启,直接使用crontab 2. 停止程序脚本 touch top-spider.sh vim stop-spider.sh 输入如下代码 ps -ef|grep bigdata-crawler-web |grep -v grep | awk '{print $ 阅读全文
posted @ 2021-03-03 09:22 淋哥 阅读(1234) 评论(0) 推荐(0) 编辑
摘要: org.elasticsearch.client.transport.NoNodeAvailableException: None of the configured nodes are available: [{#transport#-1}{Mln3wtAkTMCwR_z9QIv-tA}{20.0 阅读全文
posted @ 2021-03-03 09:04 淋哥 阅读(428) 评论(0) 推荐(0) 编辑
摘要: python脚本删除es 数据 附代码 from Elasticsearch import Elasticsearch host = '20.0.0.11:9200' es = Elasticsearch([host]) query = {'query': {'match': {'url': 'ht 阅读全文
posted @ 2020-12-29 17:47 淋哥 阅读(2105) 评论(0) 推荐(0) 编辑
摘要: 1. 查看系统版本 2. 登录linux系统 新建文件夹 执行命令 mkdir /home/test/mysql 3. 下载mysql 数据库 wget https://dev.mysql.com/get/Downloads/MySQL-8.0/mysql-8.0.20-el7-x86_64.tar 阅读全文
posted @ 2020-11-24 13:29 淋哥 阅读(1024) 评论(0) 推荐(0) 编辑
摘要: # 日期正则匹配 DATETIME_PATTERN = [ r"(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[0-1]?[0-9]:[0-5]?[0-9]:[0-5]?[0-9])", r"(\d{4}[-|/|.]\d{1,2}[-|/|.]\d{1,2}\s*?[ 阅读全文
posted @ 2020-11-18 15:16 淋哥 阅读(285) 评论(0) 推荐(1) 编辑
摘要: 火狐Firefox浏览器的历史版本下载地址 下载地址: https://ftp.mozilla.org/pub/firefox/releases/ 火狐Firefox浏览器 驱动 下载地址 https://github.com/mozilla/geckodriver/releases 阅读全文
posted @ 2020-10-29 14:30 淋哥 阅读(418) 评论(0) 推荐(1) 编辑
摘要: from lxml import etree html = "需要解析的网页" html = etree.HTML(html) #获取所有的href属性 url_list = html.xpath("//*/@href") for url in url_list: print(url) 阅读全文
posted @ 2020-10-16 17:31 淋哥 阅读(3134) 评论(0) 推荐(1) 编辑
摘要: 第一步:打开链接 https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyhook , 下载 pyHook‑1.5.1‑cp27‑cp27m‑win_amd64.whl , 把文章 pyHook‑1.5.1‑cp27‑cp27m‑win_amd64.whl 改为  阅读全文
posted @ 2020-10-13 15:22 淋哥 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 问题描述: 有一个mysql数据表,想去统计一下具体有多少行数据,于是就使用了 SELECT COUNT(url_id) FROM `spider_71_ggzy_zgzfcgw_content` 查询了好久也没有出来,有什么解决办法呢? 查询速度慢的 原因是什么? innodb引擎在统计方面和my 阅读全文
posted @ 2020-10-12 11:13 淋哥 阅读(7671) 评论(0) 推荐(0) 编辑
摘要: Content-Type: text/x-gwt-rpc; charset=UTF-8 下载某个统计局网站,它的 Content-Type: text/x-gwt-rpc; charset=UTF-8 请求方式是 post 请求 一言不合就上代码 url = 'http://data.ahtjj.g 阅读全文
posted @ 2020-10-11 16:38 淋哥 阅读(661) 评论(0) 推荐(0) 编辑
摘要: 直接上代码吧 import pymssql conn = pymssql.connect(host='111111', database='111111', user='1111111', password='11111111', autocommit=True) #核心代码 cursor = co 阅读全文
posted @ 2020-07-12 13:50 淋哥 阅读(1029) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-06-30 18:06 淋哥 阅读(1299) 评论(0) 推荐(0) 编辑
摘要: 1. 问题 抓取某个网站,发现请求参数是乱码格式, 这是点击 TextView,发现请求参数如下图所示 3. 那么=%B9%FA%CE%F1%D4%BA%B7%A2%D5%B9%D1%D0%BE%BF%D6%D0%D0%C4是什么东西啊 解码后是 =国务院发展研究中心 代码实现: content = 阅读全文
posted @ 2020-06-05 23:05 淋哥 阅读(951) 评论(0) 推荐(0) 编辑
摘要: 一、安装jdk 由于ElasticSearch 5.x 往后依赖于JDK 1.8的,所以现在我们下载JDK 1.8或者更高版本。 下载JDK1.8,下载完成后安装。 二:下载安装ES 下载地址:https://www.elastic.co/cn/downloads/elasticsearch 打开连 阅读全文
posted @ 2020-05-28 09:19 淋哥 阅读(866) 评论(0) 推荐(0) 编辑
摘要: 需求是需要用python往 SqlServer中的image类型字段中插入二进制图片 核心代码,研究好几个小时的代码: 安装pywin32,adodbapi 安装pywin32,adodbapi image_url = "图片链接" try: image_result = session.get(u 阅读全文
posted @ 2020-05-08 14:10 淋哥 阅读(1316) 评论(0) 推荐(0) 编辑
摘要: 爬虫的本质是什么 搞爬虫或者面试官总是觉得分布式爬虫是一个很牛逼的东西,认为只有会分布式爬虫才能体现一个爬虫工程师的最高技术水平,而不会分布式爬虫,则认为爬虫工程师的水平很菜,这是一种很肤浅的思想。 一:在实际的工作中,爬虫根本不需要去分布式爬虫 1.现在服务器越来越好,网络也越来越好,一台优秀的服 阅读全文
posted @ 2020-04-04 20:33 淋哥 阅读(825) 评论(0) 推荐(2) 编辑
摘要: 抓取某个网站,抓包如下 form data 这个简单,只需要用如下请求即可: url = "http://www.hebpr.gov.cn/inteligentsearch/rest/inteligentSearch/getFullTextData"headers = { "Host":"www.h 阅读全文
posted @ 2019-12-27 10:09 淋哥 阅读(3954) 评论(1) 推荐(4) 编辑
摘要: 问题: 爬虫用的是mysql数据库,发现磁盘已经用了600G,目前已经不太可能去增加磁盘的容量了,这是想到了对数据表进行压缩,去查看mysql文件 发现有很多的Binlog日志文件,果断的去上网查了一下资料,发现这些文件没有什么用处,那就删除吧。 binlog日志介绍 Binlog是mysql以二进 阅读全文
posted @ 2019-12-27 10:09 淋哥 阅读(2213) 评论(0) 推荐(0) 编辑
摘要: select table_schema as '数据库', table_name as '表名', table_rows as '记录数', truncate(data_length/1024/1024, 2) as '数据容量(MB)', truncate(index_length/1024/10 阅读全文
posted @ 2019-12-27 10:09 淋哥 阅读(1088) 评论(0) 推荐(0) 编辑
摘要: Type `help' to learn how to use Xshell prompt. [c:\~]$ Connecting to 20.0.0.91:22...Connection established.To escape to local shell, press 'Ctrl+Alt+] 阅读全文
posted @ 2019-11-01 12:42 淋哥 阅读(12386) 评论(0) 推荐(0) 编辑
摘要: ERROR: Command errored out with exit status 1: command: /usr/bin/python -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'/tmp/pip-install-pS3u 阅读全文
posted @ 2019-10-29 16:36 淋哥 阅读(17326) 评论(1) 推荐(0) 编辑
摘要: mysql安装参考教程:https://blog.csdn.net/qq_37350706/article/details/81707862 安装完毕后 执行sql语句 SELECT * FROM court_info GROUP BY second_court_name HAVING COUNT( 阅读全文
posted @ 2019-10-09 16:53 淋哥 阅读(771) 评论(1) 推荐(2) 编辑
摘要: 1. 首先看一下 python 多进程的优点和缺点 二: 测试服务器情况: cpu是12核心,内存是128G 三:测试目的: 测试目的是因为多进程 切换开销大,创建进程的代价大,通过开不同的进程数量,测试是否会出现进程开的越多,爬虫的速度越慢的情况。 四:测试软件条件: 1. 用10000个关键词, 阅读全文
posted @ 2019-09-12 13:16 淋哥 阅读(5362) 评论(0) 推荐(3) 编辑
摘要: 首先对一百万数据进行排序: 对一千万数据进行排序: 对一亿数据进行排序: 阅读全文
posted @ 2019-09-01 00:20 淋哥 阅读(1530) 评论(0) 推荐(0) 编辑
摘要: 这次去测试一下 python 的set去重,速度怎么样? 我们要做的是把文件一次性读取到内存中,然后去重,输出去重的长度。 第一步:对 121w 条数据去重,看去重话费的时间 上证据: 第二步:对 1210 w 条数据去重,看去重话费的时间 第三步:对 1.21 亿 条数据去重,看去重话费的时间 阅读全文
posted @ 2019-08-29 17:09 淋哥 阅读(1506) 评论(1) 推荐(1) 编辑
摘要: 这是一个简单的md5加密,可以学习一下js加密的破解流程,当一个入门级的教程 第一步:请求抓包 password是32位的字母和数字组合,猜测可能是md5加密,我们md5在线工具上试一下 发现我们的猜测是完全正确的 第二步:搜索js加密字段 第三步: 静态分析js,打断点 1. 2. 第四步: 扣j 阅读全文
posted @ 2019-08-29 10:09 淋哥 阅读(1511) 评论(0) 推荐(1) 编辑
摘要: 大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫 大众点评的反爬虫手段有那些: 封ip,封账号,字体库反爬虫,css文字映射,图形滑动验证码 这个图片是滑动验证码,访问频率高的话,会出现这个滑动验证码 这个图片是店铺失效或者封账号出现的提示 关于大众点评 css文件映射分析: 第一步: 阅读全文
posted @ 2019-08-29 09:51 淋哥 阅读(6788) 评论(10) 推荐(6) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 16 下一页