日报3.4

今天继续爬取中药信息中的详细信息

由于信息中都是使用}进行分割的所以使用正则对数据进行切分选取即可

另外由于每味药中的信息都不同，所以只能通过一项一项的去爬取

 
#只爬取药材名称
for tr in trs:

        for td in tr:

            #print(td.string)
            #print (td)
            if td.string == "药材名称":
                spans = tr.find('span')

                #ui.append(td.string)
                span = spans.get_text().split('}')[1]
                ulist.append(span)
        #ulist.append(ui)

今天遇到的问题是，在爬取过程中，由于所爬取的网站有反爬取机制，ip被限制

接下来为了爬取全部数据，需要解决ip被限制的问题

posted on 2021-03-04 18:32 一往无前！阅读(21) 评论(0) 编辑收藏举报

刷新页面返回顶部

一往无前！

日报3.4

导航

公告