VersonPENG

导航

2018年5月25日 #

Hadoop综合大作业

摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 启动hadoop 用hdfs创建文件夹 上传自己找的英文文章到hdfs上 启动hive,创建novels原始文档表 导入文件内容到表docs并查看 用HQL进行词频统计,结果放在表word_count里 查看统 阅读全文

posted @ 2018-05-25 21:57 154彭佛生 阅读(90) 评论(0) 推荐(0) 编辑

2018年5月16日 #

hive基本操作与应用

摘要: 通过hadoop上的hive完成WordCount 启动hadoop ssh localhost cd /usr/local/hadoop ./sbin/start-dfs.sh cd /usr/local/hive/lib service mysql start start-all.sh Hdfs 阅读全文

posted @ 2018-05-16 21:34 154彭佛生 阅读(129) 评论(0) 推荐(0) 编辑

2018年5月9日 #

用mapreduce 处理气象数据集

摘要: 用mapreduce 处理气象数据集 编写程序求每日最高最低气温,区间最高最低气温 阅读全文

posted @ 2018-05-09 21:29 154彭佛生 阅读(223) 评论(0) 推荐(0) 编辑

2018年5月8日 #

熟悉常用的HBase操作,编写MapReduce作业

摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文

posted @ 2018-05-08 21:51 154彭佛生 阅读(191) 评论(0) 推荐(0) 编辑

2018年4月30日 #

爬虫大作业

摘要: 代码: #encoding=utf-8 import re import requests import urllib2 import datetime import MySQLdb from bs4 import BeautifulSoup import sys reload(sys) sys.s 阅读全文

posted @ 2018-04-30 16:00 154彭佛生 阅读(194) 评论(0) 推荐(0) 编辑

2018年4月25日 #

熟悉常用的HDFS操作

摘要: 编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 在本地查看文件位置(ls) 在本地显示文件内容 cd /usr/local/hadoop touch test1. 阅读全文

posted @ 2018-04-25 16:25 154彭佛生 阅读(272) 评论(0) 推荐(0) 编辑

2018年3月28日 #

中文词频统计

摘要: 下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 阅读全文

posted @ 2018-03-28 14:08 154彭佛生 阅读(181) 评论(0) 推荐(0) 编辑

2018年3月23日 #

英语词频统计

摘要: 代码: 阅读全文

posted @ 2018-03-23 10:59 154彭佛生 阅读(198) 评论(0) 推荐(0) 编辑

2018年3月21日 #

字符串练习

摘要: 字符串练习: http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 https://docs.python.org/3/library/turtle.html 产生python文档的网址 http://news.g 阅读全文

posted @ 2018-03-21 08:39 154彭佛生 阅读(92) 评论(0) 推荐(0) 编辑

2018年3月7日 #

大数据概述

摘要: 1.大数据对思维方式的影响 第一个思维变化:不是随机样本,而是全体数据。大数据较之以往的统计样本就是全数据,大数据有几个特征:规模大、种类繁多、处理速度高。 第二个思维变化:不是精确性,而是混杂性。大数据的简单算法是一种统计学的逻辑,只有真正理解了大数据基于统计学的思维方式,才能理解它的独特优势和局 阅读全文

posted @ 2018-03-07 15:37 154彭佛生 阅读(308) 评论(0) 推荐(0) 编辑