Python 爬取北京市政府首都之窗信件列表-[数据处理]

日期：2020.01.24

博客期：132

星期五

　　【代码说明，如果要使用此页代码，必须在本博客页面评论区给予说明】

　　//博客总体说明

　　1、准备工作

　　2、爬取工作

　　3、数据处理（本期博客）

　　4、信息展示

　　好了今天是除夕，先给大家说句吉利话，“祝大家打代码代代顺利，码码成功”！我因为回家了，今天没做太多东西... ...呼~

　　登录虚拟机，启动hadoop和hive，准备做数据处理部分！

//建数据库的语句
create table govdata(
   kind string,
   asker string,  
   responser string,
   asktime string,  
   responsetime string, 
   title string,  
   questionSupport int,  
   responseSupport string,
   responseUnsupport string,
   questiontext string,  
   responsetext string  
)  row format delimited  
fields terminated by '\t';

　　处理如下：

　　之后通过文件导入数据（以"\t"为分隔符进行数据导入）：

//从路径为"/data/edu3/govdata"的文件导入数据
load data local inpath '/data/edu3/govdata' into table govdata;

　　处理如下：

　　之后对应需求部分的处理正在进行

　　下面是对数据库的测试：

　　之后使用文件导入方式导入到mysql （因为是以\t为分隔符所以对应以下代码）

LOAD DATA INFILE 
'E:\\课件\\3-2\\大数据\\大三寒假作业\\2020-01-23\\datas.txt'
 INTO TABLE govdata 
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'

　　导入以后分别使用sql语句去建立三个需求的表：

CREATE table kinddata
As
(
select  
 kind as kind,  
 count(1) as num  
from govdata  
group by kind  
order by num desc
);

CREATE table yeardata
AS
(
select  
SUBSTRING(asktime,1,4) as dt,  
 count(*) as num  
from govdata  
group by dt
)
;

CREATE table responserdata
AS
(
select  
  gd.responser as responser,  
  count(*) as num  
from govdata gd 
group by responser  
order by num desc
);

　　得到数据表（可以提供制作网页的数据）：

　　这分别对应的是每年的信件量，回答方对应的信件数，和不同类型的信件数

posted @ 2020-01-24 17:35 初等变换不改变矩阵的秩阅读(368) 评论(0) 编辑收藏举报

刷新页面返回顶部

初等变换不改变矩阵的秩

Python 爬取 北京市政府首都之窗信件列表-[数据处理]

Python 爬取北京市政府首都之窗信件列表-[数据处理]