北理工爬虫课程学习记录

Requests

 

 

 

post方法如果提交字典会被存到form下,如果直接提交字符串,会被存到data下

put方法和post类似,只不过他会覆盖原始数据

 

               ###各个方法的使用###

 

13个 访问参数

 

url修改的字段

//模拟浏览器进行访问

//模拟不同的IP地址对这个网站进行访问

 

 

 Beauyiful Soup

 

 

 

 

 

tag.a只会找第一个a,》》tag.a.attrs["id"]

 

 

 

 

soup.prettify()
让页面打印的时候,更加清楚的显示

 

###信息提取###

find_all()

#可以find_all(‘a’)/find_all([‘a’,'b'])/find_all(True)#打印出所有标签

 

 #找到id以link开头的所有标签

 

 #由于find_all函数特别常用,因此

 

 

 

正则表达式

 

Match

 re默认贪婪匹配,即如果我调用search,如果如果从索引开始,有多个可匹配项,则它会默认选择会长的匹配

 

 

posted @ 2019-08-27 19:40  程序杰杰  阅读(192)  评论(0编辑  收藏  举报