2018年5月25日
摘要: 要求: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 网上下载经典长篇英文小说The Old Man and Sea,保存到wc文件中,命名为sea.txt。 启动hadoop集群 将wc文件夹的sea.txt上传文件至hdfs的data文件夹 启动h 阅读全文
posted @ 2018-05-25 20:48 204罗德广 阅读(125) 评论(0) 推荐(0) 编辑
  2018年5月17日
摘要: 通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 用HQL进行词频统计,结果放在表word_count里 查看统计结果 阅读全文
posted @ 2018-05-17 21:05 204罗德广 阅读(110) 评论(0) 推荐(0) 编辑
  2018年5月10日
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文
posted @ 2018-05-10 18:58 204罗德广 阅读(121) 评论(0) 推荐(0) 编辑
  2018年4月27日
摘要: 一、Hadoop提供的Shell命令完成相同任务: 1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 2.在本地查看文件位置(ls) 3.在本地显示文件内容 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的inp 阅读全文
posted @ 2018-04-27 13:29 204罗德广 阅读(282) 评论(0) 推荐(0) 编辑
  2018年4月24日
摘要: 1.主题 虎扑体育网2016年至今关于巴萨的新闻 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 在虎扑巴萨新闻中用开发者工具找出相关信息 3.对爬了的数据进行文本分析,生成词云。 文本分析: 生成词云: 原图: 词云: 4.对文本分析结果进行解释说明。 从结果看,巴萨新闻中出现最多 阅读全文
posted @ 2018-04-24 15:57 204罗德广 阅读(3060) 评论(0) 推荐(0) 编辑
  2018年4月18日
摘要: 1. 将新闻的正文内容保存到文本文件。 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.append(news) 所有列表页的所有新闻汇总列表newstotal.extend(newsls) 3. 安装pandas,用pand 阅读全文
posted @ 2018-04-18 18:57 204罗德广 阅读(113) 评论(0) 推荐(0) 编辑
  2018年4月11日
摘要: 1. 用正则表达式判定邮箱是否输入正确。 import re r ='^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$' e ='549571966@qq.com' if re.match(r,e): print(re.match(r,e).group(0)) else 阅读全文
posted @ 2018-04-11 20:29 204罗德广 阅读(117) 评论(0) 推荐(0) 编辑
  2018年4月3日
摘要: 1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。 import requests from bs4 import BeautifulSoup url='http://news.gzcc.cn/html/xiaoyuanxinwen/' res=req 阅读全文
posted @ 2018-04-03 22:34 204罗德广 阅读(103) 评论(0) 推荐(0) 编辑
  2018年3月29日
摘要: 0.可以新建一个用于练习的html文件,在浏览器中打开。 0329.html <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Simple DOM Demo</title> </head> <body> <h 阅读全文
posted @ 2018-03-29 21:13 204罗德广 阅读(96) 评论(0) 推荐(0) 编辑
  2018年3月27日
摘要: 1.下载一首英文的歌词或文章 将所有,.?!’:等分隔符全部替换为空格 将所有大写转换为小写 生成单词列表 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最大TOP20 将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。 运行结果: 2.中文词频统计 下载一长篇 阅读全文
posted @ 2018-03-27 17:04 204罗德广 阅读(160) 评论(0) 推荐(0) 编辑