摘要:
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 我所用到短篇小说是傲慢与偏见,为了方便后续处理,对小说的特殊符号进行了处理,结果如图。 载入数据 创建查表 最终结果: 2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结 阅读全文
摘要:
通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 用HQL进行词频统计,结果放在表word_count里 查看统计结果 阅读全文
摘要:
用mapreduce 处理气象数据集 编写程序求每日最高最低气温,区间最高最低气温 阅读全文
摘要:
1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文
摘要:
爬取的是网易——人间——记事栏目的文章 阅读全文
摘要:
在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 在本地查看文件位置(ls) 在本地显示文件内容 使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。 查看hdfs中的文件(-ls) 显示hdfs中该的文件 阅读全文
摘要:
1. 将新闻的正文内容保存到文本文件。 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news def gzcc_content_info(content_url): content_info = {} resp = requests.get(content_url) resp.en 阅读全文
摘要:
获取全部校园新闻: 爬取网易_人间_记事栏目的文章: 阅读全文
摘要:
import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport redef gzcc_content_clicks(content_url): content_id = re.search('(\d{2,})\.html', content_url).group(1) click_url ... 阅读全文
摘要:
1. 取出h1标签的文本 2. 取出a标签的链接 3. 取出所有li标签的所有内容 4. 取出第2个li标签的a标签的第3个div标签的属性 5. 取出一条新闻的标题、链接、发布时间、来源 阅读全文