摘要: Hadoop综合大作业 要求: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 在网上下载一个哈利波特的英文小说,在虚拟机打开百度网盘的文件,然后下载到本地。 首先要启动dfs: 在hdfs上创建文件夹: 查看hdfs上的所有文件: 把下载的文件上传到h 阅读全文
posted @ 2018-05-22 18:32 247李嘉嘉 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 启动hadoop Hdfs上创建文件夹 创建的文件夹是datainput 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 用HQL进行词频统计,结果放在表word_count里 查看统计结果 阅读全文
posted @ 2018-05-15 17:50 247李嘉嘉 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 用Python编写WordCount程序任务 程序 WordCount 输入 一个包含大量单词的文本文件 输出 文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔 1.编写map函数,reduce函数 首先先创建文件 然后编写两个函数 2.将其权 阅读全文
posted @ 2018-05-10 19:34 247李嘉嘉 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文
posted @ 2018-05-09 08:20 247李嘉嘉 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 老师:MissDu 提交作业 老师:MissDu 提交作业 一、Hadoop提供的Shell命令完成相同任务: 1、在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 2、在本地查看文件位置(ls) 3、在本地显示文件内容 cd /usr 阅读全文
posted @ 2018-04-26 11:13 247李嘉嘉 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 相信很多人都有书荒的时候,想要找到一本合适的书籍确实不容易,所以这次利用刚学习到的知识爬取豆瓣网的各类书籍,传送门https://book.douban.com/tag/?view=cloud。 首先是这个程序的结构,html_downloader是html下载器,html_outputer是导出到 阅读全文
posted @ 2018-04-19 21:00 247李嘉嘉 阅读(869) 评论(0) 推荐(1) 编辑
摘要: 1. 将新闻的正文内容保存到文本文件。 def writeNewsDetails(contents): f = open('gzccnews.txt', 'a', encoding='utf-8') f.write(contents) f.close() 1. 将新闻的正文内容保存到文本文件。 2. 阅读全文
posted @ 2018-04-17 21:55 247李嘉嘉 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 学会使用正则表达式 1. 用正则表达式判定邮箱是否输入正确。 rule = '^\w+@\w+.\w+' mail = '121324koi@qqng.com' rec = re.match(rule, mail) if(rec): print(rec.group(0)) else: print(' 阅读全文
posted @ 2018-04-10 17:33 247李嘉嘉 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。 运行结果: 2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 运行结果: 3. 将其中的发布时间由str转换成datetime类型。 运行结果: 4. 将完整的代码及运行结果截图发布 阅读全文
posted @ 2018-04-04 00:00 247李嘉嘉 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 1.利用requests.get(url)获取网页页面的html文件,利用BeautifulSoup的HTML解析器,生成结构树 2.找出特定标签的html元素 soup.p #标签名,返回第一个 soup.head soup.p.name #字符串 soup.p. attrs #字典,标签的所有属 阅读全文
posted @ 2018-03-29 10:39 247李嘉嘉 阅读(180) 评论(0) 推荐(0) 编辑