12 2019 档案
摘要:查看一台机器是否为虚拟机 linux dmidecode -s system-product-name >注意:需root权限 物理机: DL 580 虚拟机: VMware Virtual Platform windows 在cmd环境下使用systeminfo查看 物理机: 系统制造商: To
阅读全文
摘要:xpath解析是我们在爬虫中最常用也是最通用的一种数据解析方式。 环境安装 pip install lxml 解析原理 使用通用爬虫爬取网页数据 实例化etree对象,且将页面数据加载到该对象中 使用xpath函数结合xpath表达式进行标签定位和指定数据提取 实例化etree对象 - 1.将本地的
阅读全文
摘要:requests库使用流程 使用流程/编码流程 1.指定url 2.基于requests模块发起请求 3.获取响应对象中的数据值 4.持久化存储 分析案例 需求:爬取搜狗首页的页面数据 # 爬取搜狗首页 import requests if __name__ == '__main__': # ste
阅读全文
摘要:windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %appdata% (3)在这里面新建一个文件夹 pip (4)在pip文件夹里面新建一个文件叫做 pip.ini ,内容写如下即可 [global] timeout = 6000 index-url = https:
阅读全文
摘要:awk模式 BEGIN 和 END,BEGIN 被放置在没有读取任何数据之前,而 END 被放置在所有的数据读取完成以后执行 体现如下: BEGIN{}: 读入第一行文本之前执行的语句,一般用来初始化操作 {}: 逐行处理 END{}: 处理完最后一行文本后执行,一般用来处理输出结果 分割字符串 a
阅读全文
摘要:python对不同类型文件的字符查找 TXT文件: def txt_handler(self, f_name, find_str): """ 处理txt文件 :param file_name: :return: """ line_count = 1; file_str_dict = {} if os
阅读全文