摘要: 1·开启服务,打开文件夹 2·查看目录下所有文件夹 (3)增加hdfs文件系统中文件夹里的文本文件。 4·进入LIVE,查看所有文件夹 5·创建表WORD,写HIVE QL语句 6·运行结果 2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。 将数据以cs 阅读全文
posted @ 2018-05-28 20:16 090伍明航 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 1、用Python编写WordCount程序并提交任务 程序WordCount输入一个包含大量单词的文本文件输出 编写map函数;reduce函数 2、将其权限修改 3、查看本机代码 文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔 4、放到H 阅读全文
posted @ 2018-05-10 21:48 090伍明航 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文
posted @ 2018-05-04 20:33 090伍明航 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 2.在本地查看文件位置(ls) 3.在本地显示文件内容 4.使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。 5.查看hdfs中的文件(-ls) 6 阅读全文
posted @ 2018-04-27 20:56 090伍明航 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 文本生成 阅读全文
posted @ 2018-04-24 18:01 090伍明航 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 2 将新闻数据结构转化为字典列表import pandas import requests import re from bs4 import BeautifulSoup from datetime import datetime def writeNewsDatail(content): f=open('gzccnews1.txt','a',encoding='utf-8') ... 阅读全文
posted @ 2018-04-17 19:44 090伍明航 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 1、用正则表达式判断邮箱输入是否正确 2、用正则表达式识别出全部电话号码 3、用正则表达式进行英文分词 4、用正则表达式获取新闻编号 5、生成点击次数的request.URL 6、获取点击次数 7、 阅读全文
posted @ 2018-04-11 21:11 090伍明航 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。 2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 3. 将其中的发布时间由str转换成datetime类型。 阅读全文
posted @ 2018-04-03 20:31 090伍明航 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 1:取出hi标签的文本 2、取出a标签链接 3、取出li标签的所有内容 4、取出新闻链接,发布时间,来源,标题 阅读全文
posted @ 2018-03-29 17:00 090伍明航 阅读(144) 评论(0) 推荐(0) 编辑
摘要: f = open('C:\\Users\\Administrator\\Desktop\\14.txt', 'r', encoding='utf-8') a = f.read() d = {} h = '''.'!?:,''' D = ['the', 'and', 'a'] for j in h: 阅读全文
posted @ 2018-03-26 11:39 090伍明航 阅读(130) 评论(0) 推荐(0) 编辑