夏日的向日葵

2020年5月30日

摘要： Spark是一个用来实现快速而通用的集群计算的平台。Spark的一个主要特点就是能够在内存中进行计算，因而更快。不过即使必须在磁盘上进行复杂的计算，Spark依然比MapReduce更加高效。Spark的核心是一个由很多计算任务组成的、运行在很多工作机器或者是一个计算集群上的应用进行调度、分发以及监阅读全文

posted @ 2020-05-30 12:29 夏日的向日葵阅读(149) 评论(0) 推荐(0) 编辑

2020年5月26日

ElasticSearch介绍

摘要： Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，阅读全文

posted @ 2020-05-26 22:50 夏日的向日葵阅读(267) 评论(0) 推荐(0) 编辑

2020年5月24日

python创建进程的常用方式

摘要：运行程序时，单线程或单进程往往是比较慢的，为加快程序运行速度，我们可以使用多进程，可以理解为多任务同时运行，小编的电脑是四核，所以可以设置四个进程。下面，我们来了解下多进程的使用： 1、使用multiprocessing模块创建进程 multiprocessing模块提供了一个Process类来代阅读全文

posted @ 2020-05-24 12:29 夏日的向日葵阅读(1388) 评论(0) 推荐(0) 编辑

2020年5月23日

python截取根域名

摘要：我们在备案网站上查询域名的时候，查询的域名会被自动截取，这样返回的信息就不是host对应的信息，而是二级域名对应的信息，为了应对这种情况，我们就需要截取域名： #导入模块 from tld import get_fld from tld import get_tld #只取到二级域名 print(g 阅读全文

posted @ 2020-05-23 21:55 夏日的向日葵阅读(844) 评论(0) 推荐(0) 编辑

2020年5月21日

python爬虫之BeautifulSoup的HTML解析

摘要： BeautifulSoup是一个用于从HTML和XML文件中提取数据的python库，它提供一些简单的函数来处理导航、搜索、修改分析树等功能。BeautifulSoup能自动将文档转换成Unicode编码，输出文档转换为UTF-8编码。本例直接创建模拟HTML代码，进行美化： # 导入Beauti 阅读全文

posted @ 2020-05-21 22:00 夏日的向日葵阅读(1133) 评论(0) 推荐(0) 编辑

2020年5月20日

python爬虫之headers处理、网络超时问题处理

摘要： 1、请求headers处理我们有时请求服务器时，无论get或post请求，会出现403错误，这是因为服务器拒绝了你的访问，这时我们可以通过模拟浏览器的头部信息进行访问，这样就可以解决反爬设置的问题。 import requests # 创建需要爬取网页的地址 url = 'https://www. 阅读全文

posted @ 2020-05-20 23:36 夏日的向日葵阅读(1103) 评论(0) 推荐(0) 编辑

2020年5月19日

python爬虫之实现HTTP网络请求的三种方式：urllib、urllib3以及requests

摘要： 1、通过urllib.requests模块实现发送请求并读取网页内容的简单示例如下： #导入模块 import urllib.request #打开需要爬取的网页 response = urllib.request.urlopen('http://www.baidu.com') #读取网页代码 ht 阅读全文

posted @ 2020-05-19 23:36 夏日的向日葵阅读(4366) 评论(0) 推荐(0) 编辑

2020年5月18日

Linux后台运行任务nohup和&

摘要： nohup的使用： 1.后台运行脚本，输出默认重定向到当前目录下nohup.out文件 nohup sh test.sh & 2、后台运行脚本，并将标准输出和标准错误输出到test.log文件 nohup sh test.sh >>test.log 2>&1 & 或 nohup sh test.sh 阅读全文

posted @ 2020-05-18 22:17 夏日的向日葵阅读(922) 评论(0) 推荐(0) 编辑

python验证是否出现危险字符

摘要：使用re模块，定义一个验证危险字符的模式字符串，验证两段文字，并输出验证结果： import re pattern = r'(黑客)|(抓包)|(监听)|(Trojan)' about = '我是一名程序员，我喜欢看黑客方面的图书，想研究一下Trojan' match =re.search(patt 阅读全文

posted @ 2020-05-18 22:01 夏日的向日葵阅读(398) 评论(0) 推荐(0) 编辑

python验证输入的手机是否为中国移动的号码

摘要：使用re模块，输入两个手机号码，进行验证： import re pattern = r'(13[4-9]\d{8})$|(15[01289]\d{8})$' mobile = '13634222222' match =re.match(pattern,mobile) if match == None 阅读全文

posted @ 2020-05-18 21:46 夏日的向日葵阅读(1019) 评论(0) 推荐(0) 编辑

夏日的向日葵

公告