摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 启动hadoop: 查看hdfs上的文件夹: 将本地系统hadoop文件夹里的王子英文版故事LittlePrince.txt上传至hdfs的hive文件夹中: 查看hdfs上的LittlePrince.tx 阅读全文
posted @ 2018-05-25 18:38 091梁耀 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 1. 用Python编写WordCount程序并提交任务 程序 WordCount 输入 一个包含大量单词的文本文件 输出 文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔 1.编写map函数,reduce函数 2.将其权限作出相应修改 3.本 阅读全文
posted @ 2018-05-10 19:57 091梁耀 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文
posted @ 2018-05-04 19:46 091梁耀 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop提供的Shell命令完成相同任务: 在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词.在本地查看文件位置(ls)在本地显示文件内容 使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。 查看h 阅读全文
posted @ 2018-04-26 21:46 091梁耀 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 1.选一个自己感兴趣的主题或网站。(所有同学不能雷同) 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全 阅读全文
posted @ 2018-04-23 17:58 091梁耀 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 1. 将新闻的正文内容保存到文本文件。 def writeNewsDetail(content): f = open('gzccnews.txt', 'a',encoding='utf-8') f.write(content) f.close() 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.... 阅读全文
posted @ 2018-04-17 19:26 091梁耀 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 1. 用正则表达式判定邮箱是否输入正确。 e='454181644@qq.com' r='^(\w)+([\.\_\-]\w+)*@(\w)+((\.\w{2,3}){1,3})$' print(re.match(r,e)) 2. 用正则表达式识别出全部电话号码。 tel='版权所有:广州商学院 地址:广州市黄埔区九龙大道206号 学校办公室:020-82876130 招生电话:0... 阅读全文
posted @ 2018-04-11 23:26 091梁耀 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 1 1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/' 7 res = requests.get(url) 8 res.... 阅读全文
posted @ 2018-04-02 16:05 091梁耀 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get( 阅读全文
posted @ 2018-03-29 16:50 091梁耀 阅读(95) 评论(0) 推荐(0) 编辑
摘要: song = ''' An empty street,An empty house,A hole inside my heart,I'm all alone,The rooms are getting smaller,I wonder how,I wonder why,I wonder where they are,The days we had,The songs we sang togeth... 阅读全文
posted @ 2018-03-26 13:29 091梁耀 阅读(95) 评论(0) 推荐(0) 编辑