日报3.4

今天继续爬取中药信息中的详细信息

由于信息中都是使用}进行分割的所以使用正则对数据进行切分选取即可

 

 

 另外由于每味药中的信息都不同,所以只能通过一项一项的去爬取

 
#只爬取药材名称
for tr in trs: for td in tr: #print(td.string) #print (td) if td.string == "药材名称": spans = tr.find('span') #ui.append(td.string) span = spans.get_text().split('}')[1] ulist.append(span) #ulist.append(ui)

 

 

 今天遇到的问题是,在爬取过程中,由于所爬取的网站有反爬取机制,ip被限制

 

 

 

 

 接下来为了爬取全部数据,需要解决ip被限制的问题

 

posted on 2021-03-04 18:32  一往无前!  阅读(21)  评论(0编辑  收藏  举报