上一页 1 2 3 4 5 6 7 8 ··· 12 下一页
摘要: Spark是一个用来实现快速而通用的集群计算的平台。Spark的一个主要特点就是能够在内存中进行计算,因而更快。不过即使必须在磁盘上进行复杂的计算,Spark依然比MapReduce更加高效。Spark的核心是一个由很多计算任务组成的、运行在很多工作机器或者是一个计算集群上的应用进行调度、分发以及监 阅读全文
posted @ 2020-05-30 12:29 夏日的向日葵 阅读(149) 评论(0) 推荐(0) 编辑
摘要: Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch用于云计算中, 阅读全文
posted @ 2020-05-26 22:50 夏日的向日葵 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 运行程序时,单线程或单进程往往是比较慢的,为加快程序运行速度,我们可以使用多进程,可以理解为多任务同时运行,小编的电脑是四核,所以可以设置四个进程。 下面,我们来了解下多进程的使用: 1、使用multiprocessing模块创建进程 multiprocessing模块提供了一个Process类来代 阅读全文
posted @ 2020-05-24 12:29 夏日的向日葵 阅读(1388) 评论(0) 推荐(0) 编辑
摘要: 我们在备案网站上查询域名的时候,查询的域名会被自动截取,这样返回的信息就不是host对应的信息,而是二级域名对应的信息,为了应对这种情况,我们就需要截取域名: #导入模块 from tld import get_fld from tld import get_tld #只取到二级域名 print(g 阅读全文
posted @ 2020-05-23 21:55 夏日的向日葵 阅读(844) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup是一个用于从HTML和XML文件中提取数据的python库,它提供一些简单的函数来处理导航、搜索、修改分析树等功能。BeautifulSoup能自动将文档转换成Unicode编码,输出文档转换为UTF-8编码。 本例直接创建模拟HTML代码,进行美化: # 导入Beauti 阅读全文
posted @ 2020-05-21 22:00 夏日的向日葵 阅读(1133) 评论(0) 推荐(0) 编辑
摘要: 1、请求headers处理 我们有时请求服务器时,无论get或post请求,会出现403错误,这是因为服务器拒绝了你的访问,这时我们可以通过模拟浏览器的头部信息进行访问,这样就可以解决反爬设置的问题。 import requests # 创建需要爬取网页的地址 url = 'https://www. 阅读全文
posted @ 2020-05-20 23:36 夏日的向日葵 阅读(1103) 评论(0) 推荐(0) 编辑
摘要: 1、通过urllib.requests模块实现发送请求并读取网页内容的简单示例如下: #导入模块 import urllib.request #打开需要爬取的网页 response = urllib.request.urlopen('http://www.baidu.com') #读取网页代码 ht 阅读全文
posted @ 2020-05-19 23:36 夏日的向日葵 阅读(4366) 评论(0) 推荐(0) 编辑
摘要: nohup的使用: 1.后台运行脚本,输出默认重定向到当前目录下nohup.out文件 nohup sh test.sh & 2、后台运行脚本,并将标准输出和标准错误输出到test.log文件 nohup sh test.sh >>test.log 2>&1 & 或 nohup sh test.sh 阅读全文
posted @ 2020-05-18 22:17 夏日的向日葵 阅读(922) 评论(0) 推荐(0) 编辑
摘要: 使用re模块,定义一个验证危险字符的模式字符串,验证两段文字,并输出验证结果: import re pattern = r'(黑客)|(抓包)|(监听)|(Trojan)' about = '我是一名程序员,我喜欢看黑客方面的图书,想研究一下Trojan' match =re.search(patt 阅读全文
posted @ 2020-05-18 22:01 夏日的向日葵 阅读(398) 评论(0) 推荐(0) 编辑
摘要: 使用re模块,输入两个手机号码,进行验证: import re pattern = r'(13[4-9]\d{8})$|(15[01289]\d{8})$' mobile = '13634222222' match =re.match(pattern,mobile) if match == None 阅读全文
posted @ 2020-05-18 21:46 夏日的向日葵 阅读(1019) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 12 下一页