• 博客园logo
  • 会员
  • 周边
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
 






离梦

 
 

Powered by 博客园
博客园 | 首页 | 新随笔 | 联系 | 订阅 订阅 | 管理

2018年5月25日

Hadoop综合大作业
摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 (1)我下载了英文小说《追风筝的人》,改成story.txt,来进行操作 首先,启动hadoop Hdfs上创建文件夹 上传文件到HDFS 启动hive 在story数据库建表storydocs, 导入文件 阅读全文
posted @ 2018-05-25 11:58 199-陈楷涛 阅读(94) 评论(0) 推荐(0)
 

2018年5月17日

hive基本操作与应用
摘要: 通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 用HQL进行词频统计,结果放在表word_count里 查看统计结果 阅读全文
posted @ 2018-05-17 00:51 199-陈楷涛 阅读(76) 评论(0) 推荐(0)
 

2018年5月10日

熟悉HBase基本操作
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23 2015003 阅读全文
posted @ 2018-05-10 09:16 199-陈楷涛 阅读(116) 评论(0) 推荐(0)
 

2018年4月30日

爬虫大作业
摘要: 1.选一个自己感兴趣的主题(所有人不能雷同)。 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全部数据、 阅读全文
posted @ 2018-04-30 21:29 199-陈楷涛 阅读(492) 评论(0) 推荐(0)
 

2018年4月27日

第三章 熟悉常用的HDFS操作
摘要: 一、Hadoop提供的Shell命令完成相同任务: 二、 阅读全文
posted @ 2018-04-27 20:54 199-陈楷涛 阅读(143) 评论(0) 推荐(0)
 

2018年4月17日

数据结构化与保存
摘要: import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport reimport pandasimport sqlite3import pymysqlfrom sqlalchemy import crea 阅读全文
posted @ 2018-04-17 17:50 199-陈楷涛 阅读(185) 评论(0) 推荐(0)
 

2018年4月10日

使用正则表达式,取得点击次数,函数抽离
摘要: import re import datetime import requests from bs4 import BeautifulSoup # 1.用正则表达式判定邮箱是否输入正确。 mail = '^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$' # 邮箱只允许英文字母、数字、下划线、英文句号、以及中划线组成,域名只允许英文域名 ... 阅读全文
posted @ 2018-04-10 17:53 199-陈楷涛 阅读(118) 评论(0) 推荐(0)
 

2018年3月29日

网络爬虫基础练习
摘要: 1.利用requests.get(url)获取网页页面的html文件 结果截图 2.利用BeautifulSoup的HTML解析器,生成结构树 3.找出特定标签的html元素 4.取得含有特定CSS属性的元素 取出h1标签的文本 取出a标签的链接 取出所有li标签的所有内容 取出一条新闻的标题、链接 阅读全文
posted @ 2018-03-29 18:58 199-陈楷涛 阅读(105) 评论(0) 推荐(0)
 

2018年3月28日

综合练习:词频统计
摘要: 1.英文词频统 下载一首英文的歌词或文章 将所有,.?!’:等分隔符全部替换为空格 将所有大写转换为小写 生成单词列表 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最大TOP20 将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。 运行结果 2.中文词频统计 阅读全文
posted @ 2018-03-28 21:03 199-陈楷涛 阅读(152) 评论(0) 推荐(0)
 

2018年3月22日

组合数据类型综合练习:英文词频统计
摘要: 组合数据类型练习: 分别定义字符串,列表,元组,字典,集合,并进行遍历。 总结列表,元组,字典,集合的联系与区别。 总结列表,元组,字典,集合的联系与区别。 (1)列表是任意对象的序列,用方括号表示。list是一种有序的集合,可以随时添加、修改和删除其中的元素,是一个可变的有序表,所以,可以往lis 阅读全文
posted @ 2018-03-22 21:49 199-陈楷涛 阅读(116) 评论(0) 推荐(0)
 
下一页