爬虫练习1：爬取省市信息

爬取思路：

1、获取网页信息

2、爬取省市信息，存到列表

3、打印输出列表中的数据

点击查看代码

import requests
from bs4 import BeautifulSoup
import bs4
 
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status() 
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
    
# 抓取数据，存到列表 
def fillCityList(clist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('table').children:
        if isinstance(tr, bs4.element.Tag):
            # 查找tr标签中的td标签，等同于tds = tr.find_all('td')
            tds = tr('td')
            clist.append([tds[0].string, tds[1].string, tds[2].string])

# 打印和输出数据
def printCityList(clist, num):
    # 格式化输出样式
    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}\n"
    
    if num > 34 :
        print ('\n省市数量的最大值为34，请重新执行！~~\n')
    else :
        # 打印并输出到文件，行末加上一个中文的空格符号chr(12288)
        f = open('ProvinceCityList.txt','w')
        print(tplt.format("序号","省市","简称",chr(12288)))
        f.write(tplt.format("序号","省市","简称",chr(12288)))
        for i in range(num):
            c = clist[i]
            print(tplt.format(c[0],c[1],c[2],chr(12288)))
            f.write(tplt.format(c[0],c[1],c[2],chr(12288)))
        f.close()
        print('已输出至文件：ProvinceCityList.txt')
     
if __name__ == '__main__':
    cinfo = []
    url = 'http://www.tcmap.com.cn/list/jiancheng_list.html'
    html = getHTMLText(url)
    fillCityList(cinfo, html)
    printCityList(cinfo, 34) # 输出前34个省市

输出结果：

点击查看代码

    序号    	　　　　省市　　　　	    简称    

    1     	　　　　北京　　　　	    京     

    2     	　　　　天津　　　　	    津     

    3     	　　　　河北　　　　	    冀     

    4     	　　　　山西　　　　	    晋     

    5     	　　　内蒙古　　　　	    蒙     

    6     	　　　　辽宁　　　　	    辽     

    7     	　　　　吉林　　　　	    吉     

    8     	　　　黑龙江　　　　	    黑     

    9     	　　　　上海　　　　	    沪     

    10    	　　　　江苏　　　　	    苏     

    11    	　　　浙江省　　　　	    浙     

    12    	　　　　安徽　　　　	    皖     

    13    	　　　　福建　　　　	    闽     

    14    	　　　　江西　　　　	    赣     

    15    	　　　　山东　　　　	    鲁     

    16    	　　　　河南　　　　	    豫     

    17    	　　　　湖北　　　　	    鄂     

    18    	　　　　湖南　　　　	    湘     

    19    	　　　　广东　　　　	    粤     

    20    	　　　　广西　　　　	    桂     

    21    	　　　　海南　　　　	    琼     

    22    	　　　　重庆　　　　	    渝     

    23    	　　　　四川　　　　	    川     

    24    	　　　　贵州　　　　	    黔     

    25    	　　　　云南　　　　	    滇     

    26    	　　　　西藏　　　　	    藏     

    27    	　　　　陕西　　　　	    陕     

    28    	　　　甘肃省　　　　	    甘     

    29    	　　　　青海　　　　	    青     

    30    	　　　　宁夏　　　　	    宁     

    31    	　　　　新疆　　　　	    新     

    32    	　　　　台湾　　　　	    台     

    33    	　香港特别行政区　　	    港     

    34    	　　　　澳门　　　　	    澳     

已输出至文件：ProvinceCityList.txt

posted @ 2021-10-06 16:24 YJXZ 阅读(158) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

YJXZ

熟读唐诗三百首，不会作诗也会吟

爬虫练习1：爬取省市信息

公告