day3

爬虫
python库
1,requests 用来获取页面内容
2,Beautiful Soup

# 传入url,获取页面soup对象
def getSoup(url):
# 加入header防止网站防爬虫机制

请求头需要注意的参数:

(1)Referrer:访问源至哪里来(一些大型网站,会通过Referrer 做防盗链策略;所有爬虫也要注意模拟)

(2)User-Agent:访问的浏览器(要加上否则会被当成爬虫程序)

(3)cookie:请求头注意携带

header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
}

 


# 获取链接内容
response = requests.get(url, headers=header)
soup = BeautifulSoup(response.text, 'lxml')
return soup

按照页面结果获取页面数据
houseInfos=soupHouse.find_all('li',class_='fl oneline')

小工具
# 从前到后传入字符串按照字符截取
def splitByStr(self,character,position='front'):
# 如果没有截取的字符串返回本身
if self.find(character)<0:
return self
# 前半截
if position=='front':
return self[:self.index(character)]
# 后半截
else:
return self[self.index(character)+len(character):]

posted on 2019-05-15 00:40  看你妹儿  阅读(114)  评论(0编辑  收藏  举报

导航