会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
离梦
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2018年5月25日
Hadoop综合大作业
摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 (1)我下载了英文小说《追风筝的人》,改成story.txt,来进行操作 首先,启动hadoop Hdfs上创建文件夹 上传文件到HDFS 启动hive 在story数据库建表storydocs, 导入文件
阅读全文
posted @ 2018-05-25 11:58 199-陈楷涛
阅读(89)
评论(0)
推荐(0)
编辑
2018年5月17日
hive基本操作与应用
摘要: 通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 用HQL进行词频统计,结果放在表word_count里 查看统计结果
阅读全文
posted @ 2018-05-17 00:51 199-陈楷涛
阅读(72)
评论(0)
推荐(0)
编辑
2018年5月10日
熟悉HBase基本操作
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003
阅读全文
posted @ 2018-05-10 09:16 199-陈楷涛
阅读(116)
评论(0)
推荐(0)
编辑
2018年4月30日
爬虫大作业
摘要: 1.选一个自己感兴趣的主题(所有人不能雷同)。 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全部数据、
阅读全文
posted @ 2018-04-30 21:29 199-陈楷涛
阅读(481)
评论(0)
推荐(0)
编辑
2018年4月27日
第三章 熟悉常用的HDFS操作
摘要: 一、Hadoop提供的Shell命令完成相同任务: 二、
阅读全文
posted @ 2018-04-27 20:54 199-陈楷涛
阅读(143)
评论(0)
推荐(0)
编辑
2018年4月17日
数据结构化与保存
摘要: import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport reimport pandasimport sqlite3import pymysqlfrom sqlalchemy import crea
阅读全文
posted @ 2018-04-17 17:50 199-陈楷涛
阅读(184)
评论(0)
推荐(0)
编辑
2018年4月10日
使用正则表达式,取得点击次数,函数抽离
摘要: import re import datetime import requests from bs4 import BeautifulSoup # 1.用正则表达式判定邮箱是否输入正确。 mail = '^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$' # 邮箱只允许英文字母、数字、下划线、英文句号、以及中划线组成,域名只允许英文域名 ...
阅读全文
posted @ 2018-04-10 17:53 199-陈楷涛
阅读(115)
评论(0)
推荐(0)
编辑
2018年3月29日
网络爬虫基础练习
摘要: 1.利用requests.get(url)获取网页页面的html文件 结果截图 2.利用BeautifulSoup的HTML解析器,生成结构树 3.找出特定标签的html元素 4.取得含有特定CSS属性的元素 取出h1标签的文本 取出a标签的链接 取出所有li标签的所有内容 取出一条新闻的标题、链接
阅读全文
posted @ 2018-03-29 18:58 199-陈楷涛
阅读(104)
评论(0)
推荐(0)
编辑
2018年3月28日
综合练习:词频统计
摘要: 1.英文词频统 下载一首英文的歌词或文章 将所有,.?!’:等分隔符全部替换为空格 将所有大写转换为小写 生成单词列表 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最大TOP20 将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。 运行结果 2.中文词频统计
阅读全文
posted @ 2018-03-28 21:03 199-陈楷涛
阅读(150)
评论(0)
推荐(0)
编辑
2018年3月22日
组合数据类型综合练习:英文词频统计
摘要: 组合数据类型练习: 分别定义字符串,列表,元组,字典,集合,并进行遍历。 总结列表,元组,字典,集合的联系与区别。 总结列表,元组,字典,集合的联系与区别。 (1)列表是任意对象的序列,用方括号表示。list是一种有序的集合,可以随时添加、修改和删除其中的元素,是一个可变的有序表,所以,可以往lis
阅读全文
posted @ 2018-03-22 21:49 199-陈楷涛
阅读(116)
评论(0)
推荐(0)
编辑
下一页