181冯荣彬

Hadoop综合大作业

摘要： 1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。（1）开启所有的服务，并创建文件夹wwc (2)查看目录下所有文件（3）把hdfs文件系统中文件夹里的文本文件load进去。（4）进入hive,并查看所有的表 (5)创建表word,,写hiveQL命令阅读全文

posted @ 2018-05-25 21:47 181冯荣彬阅读(107) 评论(0) 推荐(0)

hive基本操作与应用

摘要：通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹上传文件至hdfs 启动Hive 创建原始文档表导入文件内容到表docs并查看用HQL进行词频统计，结果放在表word_count里查看统计结果好文要顶关注我收藏该文好文要顶关注我收藏该文阅读全文

posted @ 2018-05-16 21:58 181冯荣彬阅读(99) 评论(0) 推荐(0)

用mapreduce 处理气象数据集

摘要：编写程序求每日最高最低气温，区间最高最低气温气象数据集下载地址为：ftp://ftp.ncdc.noaa.gov/pub/data/noaa 按学号后三位下载不同年份月份的数据（例如201506110136号同学，就下载2013年以6开头的数据，看具体数据情况稍有变通）解压数据集，并保存在文本文阅读全文

posted @ 2018-05-09 21:50 181冯荣彬阅读(144) 评论(0) 推荐(0)

熟悉常用的HBase操作

摘要： 1. 以下关系型数据库中的表和数据，要求将其转换为适合于HBase存储的表并插入数据：学生表（Student）（不包括最后一列）学号（S_No）姓名（S_Name）性别（S_Sex）年龄（S_Age）课程（course） 2015001 Zhangsan male 23 2015003 阅读全文

posted @ 2018-05-08 20:57 181冯荣彬阅读(104) 评论(0) 推荐(0)

爬虫大作业

摘要： # -*- coding: UTF-8 -*-# -*- import requests import re import jieba import locale locale=locale.setlocale(locale.LC_CTYPE, 'chinese') from bs4 import 阅读全文

posted @ 2018-04-30 19:50 181冯荣彬阅读(158) 评论(0) 推荐(0)

数据结构化与保存

摘要： import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas #获取点击次数 def getClickCount(newsUrl): newId=re.search('\_(.*).html',newsUrl).group(1).split('/')... 阅读全文

posted @ 2018-04-12 20:44 181冯荣彬阅读(116) 评论(0) 推荐(0)

爬取校园新闻首页的新闻

摘要： import requests from bs4 import BeautifulSoup from datetime import datetime import re res = requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/') res.encoding = 'utf-8' soup = BeautifulSoup(res.te... 阅读全文

posted @ 2018-04-09 20:25 181冯荣彬阅读(117) 评论(0) 推荐(0)

网络爬虫基础练习

摘要： import requests from bs4 import BeautifulSoup res = requests.get('https://www.bilibili.com/') res.encoding = 'UTF-8' soup = BeautifulSoup(res.text, 'html.parser') # 取出h1标签的文本 for h1 in soup.find_all... 阅读全文

posted @ 2018-03-29 20:58 181冯荣彬阅读(124) 评论(0) 推荐(0)

中文词频统计

摘要： import jieba file=open('pingfandeshijie','r',encoding = 'utf-8') wordList=list(jieba.cut(file.read()))wordDict={}for word in wordList: if(len(word)==1 阅读全文

posted @ 2018-03-28 21:53 181冯荣彬阅读(97) 评论(0) 推荐(0)

python基础

摘要： # -*- coding:utf-8 -*- from turtle import * def mygoto(x,y): up() goto(x,y) down() def drawStar(r): begin_fill() for i in range(5): forward(r) right(144) end_f... 阅读全文

posted @ 2018-03-15 21:25 181冯荣彬阅读(96) 评论(0) 推荐(0)

导航

公告