08 2022 档案

摘要:xpath 1、xpath安装与使用 安装 安装lxml库 pip install lxml -i pip源 2、解析流程与使用 解析流程 实例化一个etree的对象,把即将被解析的页面源码加载到该对象 调用该对象的xpath方法结合着不同形式的xpath表达进行标签定位和数据提取 使用 导入lxm 阅读全文
posted @ 2022-08-16 18:44 hkwJsxl 阅读(56) 评论(0) 推荐(0) 编辑
摘要:分布式爬虫 一. 增量式爬虫 ​ 增量式爬虫, 顾名思义. 可以对网站进行反复抓取. 然后发现新东西了就保存起来. 遇到了以前抓取过的内容就自动过滤掉即可. 其核心思想就两个字. 去重. 并且可以反复去重. 今天运行一下. 明天再运行一下. 将不同的数据过滤出来. 相同的数据去除掉(不保存)即可. 阅读全文
posted @ 2022-08-15 20:41 hkwJsxl 阅读(129) 评论(0) 推荐(0) 编辑
摘要:来源:漫话编程(ID:mhcoding) 周末,我正在网上搜索简历,准备给团队招聘新人。这时候,女朋友回来了,看起来并不是很高兴。 反向代理(reverse proxy):是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给inter 阅读全文
posted @ 2022-08-15 12:58 hkwJsxl 阅读(400) 评论(0) 推荐(0) 编辑
摘要:REST全称是Representational State Transfer,中文意思是表述(编者注:通常译为表征性状态转移)。 它首次出现在2000年Roy Fielding的博士论文中。 RESTful是一种定义Web API接口的设计风格,尤其适用于前后端分离的应用模式中。 这种风格的理念认为 阅读全文
posted @ 2022-08-12 22:16 hkwJsxl 阅读(51) 评论(0) 推荐(0) 编辑
摘要:若你使用过 Shell 中的 awk 工具,会发现用它来分割字符串是非常方便的。特别是多个连续空格会被当做一个处理。 [root@localhost ~]# cat demo.txt hello world [root@localhost ~]# [root@localhost ~]# awk '{ 阅读全文
posted @ 2022-08-12 22:06 hkwJsxl 阅读(103) 评论(0) 推荐(0) 编辑
摘要:NoSQL Mongodb 下载mongodb的版本,两点注意 根据业界规则,偶数为稳定版,如1.6.X,奇数为开发版,如1.7.X 32bit的mongodb最大只能存放2G的数据,64bit就没有限制 性能 BSON格式的编码和解码都是非常快速的。它使用了C风格的数据表现形式,这样在各种语言中都 阅读全文
posted @ 2022-08-11 21:24 hkwJsxl 阅读(72) 评论(0) 推荐(0) 编辑
摘要:Redis简单使用 一. Redis的安装 Redis作为一款目前这个星球上性能最高的非关系型数据库之一. 拥有每秒近十万次的读写能力. 其实力只能用恐怖来形容. mac版本, brew: https://blog.csdn.net/weixin_45509705/article/details/1 阅读全文
posted @ 2022-08-11 21:05 hkwJsxl 阅读(32) 评论(0) 推荐(0) 编辑
摘要:selenium 一、前期准备 1、概述 selenium本身是一个自动化测试工具。它可以让python代码调用浏览器。并获取到浏览器中加载的各种资源。 我们可以利用selenium提供的各项功能。 帮助我们完成数据的抓取。 2、学习目标 掌握 selenium发送请求,加载网页的方法 掌握 sel 阅读全文
posted @ 2022-08-11 21:03 hkwJsxl 阅读(170) 评论(0) 推荐(0) 编辑
摘要:Redis数据库 Redis 简介 Redis是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。 Redis与其他 key- value 缓存产品有以下三个特点: Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。 Redis不仅仅支 阅读全文
posted @ 2022-08-11 21:03 hkwJsxl 阅读(39) 评论(0) 推荐(0) 编辑
摘要:一、什么是xss攻击 xss攻击: >web注入 xss跨站脚本攻击(Cross site script,简称xss)是一种“HTML注入”,由于攻击的脚本多数时候是跨域的,所以称之为“跨域脚本”。 我们常常听到“注入”(Injection),如SQL注入,那么到底“注入”是什么?注入本质上就是把输 阅读全文
posted @ 2022-08-11 20:34 hkwJsxl 阅读(79) 评论(0) 推荐(0) 编辑
摘要:USER_AGENTS = [ 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36', 'Mozilla/5 阅读全文
posted @ 2022-08-09 16:34 hkwJsxl 阅读(25) 评论(0) 推荐(0) 编辑
摘要:点击查看代码 location_list = [ {'location_id': '101010100', 'location_name': ['北京', '北京', '北京']}, {'location_id': '101010200', 'location_name': ['海淀', '北京', 阅读全文
posted @ 2022-08-06 07:42 hkwJsxl 阅读(530) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
more_horiz
keyboard_arrow_up light_mode palette
选择主题