2022年10月11日

摘要: pyquery.PyQueryPyQuery有三种初始化的方式提供一个html的字符串提供一个url,pyquery使用requests.get(url).text方法获取,获取html的字符串提供一个本地文件路径PyQuery(filename=’’)find()PyQuery对象可以直接被调用, 阅读全文

posted @ 2022-10-11 11:23 风云伴日斜 阅读(100) 评论(0) 推荐(0) 编辑

2022年10月10日

摘要: bs4.Beautiful第一个参数字符串类型的html源代码,可以使用urlopen发起请求后使用read()方法或者requests.get()发起请求后使用text()获取源码第二个参数是html解析器,可以选择使用html.parser或者lxmlpreffity()以标准缩进的形式返回ht 阅读全文

posted @ 2022-10-10 22:55 风云伴日斜 阅读(58) 评论(0) 推荐(0) 编辑

摘要: etree解析html解析html字符串,将字符串传递给etree.HTML()方法:解析html文件,传递文件路径和解析器:xpath方法html.xpath()方法参数为xpath规则,选取html中的元素,返回为封装好的element对象注意:xpath按次序选择,次序从1开始示例:s = ' 阅读全文

posted @ 2022-10-10 15:49 风云伴日斜 阅读(57) 评论(0) 推荐(0) 编辑

2022年10月9日

摘要: Get请求requests.get(url)->Response示例:url = 'http://httpbin.org/get'r = requests.get(url)r.text是返回的内容,为str类型r.json()可以将json格式的字符串解析为dict类型r.content是返回的二进 阅读全文

posted @ 2022-10-09 23:30 风云伴日斜 阅读(24) 评论(0) 推荐(0) 编辑

摘要: Urllib request Urlopen Urlopen()来访问一个url,额外参数data可以用来设置url请求中的参数,timeout用来设置超时 Request对象 Urllib.request.Request对象,构建更强大的请求,可以设置请求头 Handler类 Urllib.req 阅读全文

posted @ 2022-10-09 00:25 风云伴日斜 阅读(25) 评论(0) 推荐(0) 编辑