日报3.4
今天继续爬取中药信息中的详细信息
由于信息中都是使用}进行分割的所以使用正则对数据进行切分选取即可
另外由于每味药中的信息都不同,所以只能通过一项一项的去爬取
#只爬取药材名称
for tr in trs: for td in tr: #print(td.string) #print (td) if td.string == "药材名称": spans = tr.find('span') #ui.append(td.string) span = spans.get_text().split('}')[1] ulist.append(span) #ulist.append(ui)
今天遇到的问题是,在爬取过程中,由于所爬取的网站有反爬取机制,ip被限制
接下来为了爬取全部数据,需要解决ip被限制的问题