数据结构化与保存

1. 将新闻的正文内容保存到文本文件。

f = open('gzccnews.txt','a',encoding='utf-8')
   f.write(content)
   f.close()

  

2. 将新闻数据结构化为字典的列表:

  • 单条新闻的详情-->字典news
  • 一个列表页所有单条新闻汇总-->列表newsls.append(news)
  • 所有列表页的所有新闻汇总列表newstotal.extend(newsls)
    def getNewsDetail(newsUrl): #一篇新闻的全部信息
        resd = requests.get(newsUrl)
        resd.encoding = 'utf-8'
        soupd = BeautifulSoup(resd.text, 'html.parser')  # 打开新闻详情页
      
        news = {}
        news['title'] = soupd.select('.show-title')[0].text
        info = soupd.select('.show-info')[0].text
       # c = soupd.select('#content')[0].text  # 正文
        dt = info.lstrip('发布时间:')[:19]  # 发布时间
        news['dati'] = datetime.strptime(dt, '%Y-%m-%d %H:%M:%S')
        if info.find('来源:') > 0:
            news['source'] = info[info.find('来源:'):].split()[0].lstrip('来源:')
        else:
            news['source'] = 'none'
        #news['content']  = soupd.select('.show-content')[0].text.strip()
        #writeNewsDetail(news['content'])
        news['click ']= getClickCount(newsUrl)
        news['newsUrl']=newsUrl
        return (news)
      
    def getListPage(pageUrl): #一个列表页的全部新闻
        res = requests.get(pageUrl)
        res.encoding = 'utf-8'
        soup = BeautifulSoup(res.text,'html.parser')
        newslist =[]
        for news in soup.select('li'):
            if len(news.select('.news-list-title')) > 0:
                newsUrl = news.select('a')[0].attrs['href']  # 链接
                newslist.append(getNewsDetail(newsUrl))
        return (newslist)
      
    newstotal =[]
    firstPageUrl='http://news.gzcc.cn/html/xiaoyuanxinwen/'
    newstotal.extend(getListPage(firstPageUrl))
    

      

3. 安装pandas,用pandas.DataFrame(newstotal),创建一个DataFrame对象df.

import datetime
newsTotal =[{'title': '搭建校政协同育人新平台——广州市法律援助处在我校建立工作站', 'dati': datetime.datetime(2018, 4, 13, 16, 19, 2), 'source': '学校综合办', 'click ': 2658, 'newsUrl': 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0413/9225.html'},
{'title': '我校学子在第九届广东省“蓝桥杯”大赛中喜获一等奖', 'dati': datetime.datetime(2018, 4, 13, 10, 23), 'source': '信息技术与工程学院', 'click ': 2031, 'newsUrl': 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0413/9214.html'},
{'title': '我校品牌影响力位居广东民办高校前列', 'dati': datetime.datetime(2018, 4, 12, 17, 27, 50), 'source': '学校综合办', 'click ': 2112, 'newsUrl': 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0412/9216.html'},
{'title': '英国普利茅斯大学代表来访我校', 'dati': datetime.datetime(2018, 4, 12, 14, 1, 24), 'source': '国际学院', 'click ': 2187, 'newsUrl': 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0412/9212.html'},
{'title': '英国赫尔大学代表来访我校', 'dati': datetime.datetime(2018, 4, 11, 16, 30, 4), 'source': '国际学院', 'click ': 3672, 'newsUrl': 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0411/9205.html'},
{'title': '我校学子入选2018年世界大学生空手道锦标赛', 'dati': datetime.datetime(2018, 4, 11, 15, 10, 46), 'source': '公共体育部', 'click ': 6643, 'newsUrl': 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0411/9203.html'},
{'title': '我校参加2018年全国大学生征兵工作视频会议', 'dati': datetime.datetime(2018, 4, 4, 9, 35), 'source': '学生处', 'click ': 27199, 'newsUrl': 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0404/9183.html'},
{'title': '党情国情在我心,理想信仰伴我行——我校举行十九届三中全会和2018年“两会”知识竞赛', 'dati': datetime.datetime(2018, 4, 1, 11, 57), 'source': '马克思主义学院', 'click ': 6799, 'newsUrl': 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0401/9167.html'},
{'title': '校党委书记吕泉荣参加结对子班级主题班会', 'dati': datetime.datetime(2018, 4, 1, 9, 28), 'source': '学生工作处', 'click ': 6065, 'newsUrl': 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0401/9163.html'},
{'title': '我校2018年新增学士学位授予专业评审工作顺利完成', 'dati': datetime.datetime(2018, 3, 30, 17, 10, 12), 'source': '评建与督导办公室', 'click ': 6201, 'newsUrl': 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0330/9155.html'},
{'title': '经济系陆川、白丽老师编著的《电子商务实验》被列为21世纪高等学校电子信息类专业规划教材', 'dati': datetime.datetime(2005, 7, 10, 0, 0), 'source': 'none', 'click ': 1157, 'newsUrl': 'http://news.gzcc.cn/html/2005/xiaoyuanxinwen_0710/2.html'},
{'title': '我院2005年网页制作比赛圆满结束', 'dati': datetime.datetime(2005, 7, 10, 0, 0), 'source': 'none', 'click ': 1080, 'newsUrl': 'http://news.gzcc.cn/html/2005/xiaoyuanxinwen_0710/3.html'},
{'title': '我院首届教学工作会议胜利召开', 'dati': datetime.datetime(2005, 7, 10, 0, 0), 'source': 'none', 'click ': 1100, 'newsUrl': 'http://news.gzcc.cn/html/2005/xiaoyuanxinwen_0710/4.html'}]
  
  
import pandas
df = pandas.DataFrame(newsTotal)

  

4. 通过df将提取的数据保存到csv或excel 文件。

df.to_excel('gzccnews.xlsx')

  

5. 用pandas提供的函数和方法进行数据分析:

  • 提取包含点击次数、标题、来源的前6行数据
  • 提取‘学校综合办’发布的,‘点击次数’超过3000的新闻。
  • 提取'国际学院'和'学生工作处'发布的新闻。
  • 进取2018年3月的新闻
print(df.head(6))
print(df[(df['click ']>3000)&(df['source']== '学校综合办')])
#print(df[(df['source']== '国际学院')|(df['source']== '学生工作处')])
sou = [ '国际学院','学生工作处']
print(df[df['source'].isin(sou)])
df1=df.set_index('dati')
print(df1['2018-03'])

  

6. 保存到sqlite3数据库

import sqlite3
with sqlite3.connect('gzccnewsdb.sqlite') as db:
    df.to_sql('gzccnews',con=db,if_exists='replace')

  

7. 从sqlite3读数据

with sqlite3.connect('gzccnewsdb.sqlite') as db:
    df2 = pandas.read_sql_query('SELECT * FROM gzccnews',con=db)
print(df2)

  

8. df保存到mysql数据库

安装SQLALchemy

pip install SQLALchemy

  

安装PyMySQL

pip install PyMySQL

  

MySQL里创建数据库:create database gzccnews charset utf8;

import pymysql
from sqlalchemy import create_engine
conn=create_engine('mysql+pymysql://root:@localhost://3306/gzcc?charset=utf8')
pandas.io.sql.to_sql(df,'gzccnews',con=conn,if_exists='replace')

  

MySQL里查看已保存了数据。(通过MySQL Client或Navicate。)

select * from news

  

posted @ 2018-04-18 21:21  226李汉昊  阅读(398)  评论(0编辑  收藏  举报