摘要: 解析库之Xpath解析器 该选择器可以做到一句话完成多步操作,效率很高,使用广泛。 导入xpath所在的模块 from lxml import etree 将待匹配的文本传入etree生成一个对象 html = etree.HTML(doc) xpath解析器主要功能 # 1 所有节点 a = ht 阅读全文
posted @ 2021-09-27 22:11 wddwyw 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 豆瓣top250网页信息爬取 代码 import re import requests from openpyxl import Workbook from bs4 import BeautifulSoup import time wb = Workbook() wb1 = wb.active wb 阅读全文
posted @ 2021-09-26 22:25 wddwyw 阅读(54) 评论(0) 推荐(0) 编辑
摘要: 爬虫解析库之bs4模块 Beautiful Soup4 是一个可以从HTML或XML文件中提取数据的python库。能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,可以帮你节省数小时甚至数天的工作时间。 模块下载 pip3 install beautifulsoup4 配套解析器下载 阅读全文
posted @ 2021-09-21 14:02 wddwyw 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 数据的加载方式 常见的加载方式 朝服务器发送请求,页面数据直接全部返回并加载。 如何验证数据是直接加载还是其他方式 浏览器空白处鼠标右键,点击查看网页源码,在源码界面搜索对应的数据。 如果能收到就表示该数据是直接加载的,可以直接发送相应的请求获取。 内部js代码请求 先加载一个页面的框架,之后再朝各 阅读全文
posted @ 2021-09-17 21:21 wddwyw 阅读(673) 评论(0) 推荐(0) 编辑
摘要: cookie与session cookie与session的发明是专门用来解决http协议无状态的特点。 早期的网址不需要保存用户状态,所有来访问都是相同的数据。 随着时代的发展越来越多的网址需要保存用户状态。 cookie 保存在客户端浏览器上面的键值对数据。 用户第一次登录成功之后,浏览器会保存 阅读全文
posted @ 2021-09-16 19:08 wddwyw 阅读(409) 评论(0) 推荐(0) 编辑
摘要: re模块 findall(正则,文本数据) 在匹配的时候是全局匹配,不会因为匹配到一个就停止。 返回的结果是一个列表,内部包含正则匹配到的所有的内容。 import re s = """ eva jyb tony yuan jyb jyb jyb a """ ret = re.findall('j. 阅读全文
posted @ 2021-09-15 15:59 wddwyw 阅读(166) 评论(0) 推荐(0) 编辑
摘要: HTML符号 特殊符号 空格 &nbsp; > &gt; < &lt; & &amp; ¥ &yen; 版权 &copy; 注册 &reg; 常用标签 链接标签 <a href="https://www.sogo.com">链接标签</a> href参数后面写网址 用户点击即可跳转到该网页 图片标签 阅读全文
posted @ 2021-09-14 19:51 wddwyw 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 常见收集数据网站 免费使用 百度指数:https://index.baidu.com/v2/index.html#/ 新浪指数:https://data.weibo.com/index 国家数据:http://www.gov.cn/shuju/index.htm 世界银行:https://data. 阅读全文
posted @ 2021-09-13 15:44 wddwyw 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 多表查询练习 思路 在编写较为复杂的sql查询的时候不要想着一口气写完 可以写一点查一点看一点然后再写 所有复杂的sql都是慢慢拼凑出来的 在编写复杂sql的时候可以先写中文思路,然后再拼凑sql 题1:查询所有的课程的名称以及对应的任课老师姓名 思路: 查询所有的课程的名称以及对应的任课老师姓名 阅读全文
posted @ 2021-09-09 16:13 wddwyw 阅读(59) 评论(0) 推荐(0) 编辑
摘要: 0830(周一)小测验 随机验证码 import random code = '' n = int(input('位数>>:')) for i in range(n): # 产生一个随机的数字 random_int = str(random.randint(0, 9)) # 产生一个随机的大写字母 阅读全文
posted @ 2021-09-05 16:12 wddwyw 阅读(34) 评论(0) 推荐(0) 编辑