摘要:
1 from bs4 import BeautifulSoup 2 import os 3 import requests 4 5 #获取页面内容 6 def getHtmlText(url, s='text'): 7 try: 8 r = requests.get(url, timeout=30) 9 r.raise_for_stat... 阅读全文
摘要:
1、正则表达式的概念 正则表达式是用来简洁表达一组字串的表达式。 正则表达式的语法 re库的基本使用 原生字符合以r开头,反指不包含转义符的字符串 re库的Match对象 re库的贪婪匹配和最小匹配 re库默认是贪婪匹配,输出匹配到的最长度符串 如何输出最小度符串 阅读全文
摘要:
1、BeautifulSoup安装:pip install beautifulsoup4 2、BeautifulSoup使用: 3、BeautifulSoup库的基本元素: BeautifulSoup库是解析、遍历、维护‘标签树’的功能库 4、基于bs4的HTML的遍历方法 1)下行遍历:从根向叶子 阅读全文
摘要:
time:时间访问和转换模块 1、time.clock():返回从第一次调用些函数开始所经过的时间秒数。 datetime:基本日期和时间类型模块 1、 阅读全文
摘要:
一、本课知识路线 1、Requests框架:自动爬取HTML页面与自动网络请求提交 2、robots.txt:网络爬虫排除标准 3、BeautifulSoup框架:解析HTML页面 4、Re框架:正则框架,提取页面关键信息 5、Scrapy框架:网络爬虫原理介绍,专业爬虫框架介绍 二、Request 阅读全文
摘要:
urllib.request 1、定义 用于打开URL的可扩展库,定义了基本和摘要式身份验证、重定向、cookies等应用中打开URL(主要是HTTP)的函数和类。 2、函数 urllib.request.urlopen(url,data=None,url, data=None) url:网址 da 阅读全文
摘要:
1、设计一个重量转换器,输出'g'为单位的数字后返回换算成'KG'的结果。 2、设计一个求直角三角形斜边长的函数(两条直边为参数,求最长边)。 3、设计一个函数,在桌面的文件夹上创建10个文本,以数字给他们命名。 4、设计一个复利计算函数invest(),它包含三个参数:amount(资金),rat 阅读全文
摘要:
例1:实现一个清除敏感字并写入文件的功能 例2:实现一个登录密码功能 例3:改进例2,增加重置密码功能 例4:改进例3,增加密码错误3次锁定功能 例5: 统计文本中的词频 阅读全文
摘要:
6-1:各种各样的函数,根据用途函数可能分为算术函数、字符串函数、日期函数、转换函数和聚合函数。 6-1-1:函数和种类 1、算术函数:用来进行数值计算的函数 2、字符串函数:用来进行字符串操作的函数 3、日期函数:用来进行日期操作的函数 4、转换函数:用来转换数据类型和值的函数 5、聚合函数:用来 阅读全文