爬虫大作业

Python抓取NBA现役球员的基本信息数据

一、要求

选择一个热点或者你感兴趣的主题、爬取的对象与范围，爬取相应的内容并做数据分析与文本分析，形成一篇有说明、技术要点、有数据、有数据分析图形化展示与说明、文本分析图形化展示与说明的文章。

数据来源：NBA中国官网

库：

requests 用于解析页面文本数据

pandas 用于处理数据

import requests
import pandas as pd
user_agent = 'User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)'
headers = {'User-Agent':user_agent}
url='http://china.nba.com/static/data/league/playerlist.json'
#解析网页
r=requests.get(url,headers=headers).json()
num=int(len(r['payload']['players']))-1 #得到列表r['payload']['players']的长度
p1_cols=[] #用来存放p1数组的列
p2_cols=[] #用来存放p2数组的列
#遍历其中一个['playerProfile']，['teamProfile'] 得到各自列名，添加到p1_cols和p2_cols列表中
for x in r['payload']['players'][0]['playerProfile']:
p1_cols.append(x)
for y in r['payload']['players'][0]['teamProfile']:
p2_cols.append(y)
p1=pd.DataFrame(columns=p1_cols) #初始化一个DataFrame p1 用来存放playerProfile下的数据
p2=pd.DataFrame(columns=p2_cols) #初始化一个DataFrame p1 用来存放playerProfile下的数据
#遍历一次得到一个球员的信息，分别添加到DataFrame数组中
for z in range(num):
player=pd.DataFrame([r['payload']['players'][z]['playerProfile']])
team=pd.DataFrame([r['payload']['players'][z]['teamProfile']])
p1=p1.append(player,ignore_index=True)
p2=p2.append(team,ignore_index=True)
p3=pd.merge(p1,p2,left_index=True,right_index=True)
p3.to_csv('f://nba_player.csv',index=False)