摘要: 熟悉常用的hdfs操作 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex 阅读全文
posted @ 2018-05-25 16:12 157-符致伟 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 补交作业的帖子:https://www.cnblogs.com/FZW1874402927/p/9089123.html 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 (1)启动hadoop (2)Hdfs上创建文件夹 (3)上传文件至hdfs (4)启动 阅读全文
posted @ 2018-05-25 15:56 157-符致伟 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Wangwu male 23 2015003 Ma 阅读全文
posted @ 2018-05-08 20:07 157-符致伟 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 1.选一个自己感兴趣的主题。 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全部数据、爬虫及数据分析源代 阅读全文
posted @ 2018-04-30 11:44 157-符致伟 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 阅读全文
posted @ 2018-04-10 11:38 157-符致伟 阅读(120) 评论(0) 推荐(0) 编辑
摘要: import requests import re url = "http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get(url) res.encoding = 'utf-8' # 利用BeautifulSoup的HTML解析器,生成 阅读全文
posted @ 2018-04-08 21:01 157-符致伟 阅读(125) 评论(0) 推荐(0) 编辑
摘要: import requests url = "http://news.gzcc.cn/html/xiaoyuanxinwen/" res = requests.get(url) res.encoding = 'utf-8' # 利用BeautifulSoup的HTML解析器,生成结构树 from bs4 import BeautifulSoup soup = BeautifulSoup(r... 阅读全文
posted @ 2018-04-04 16:38 157-符致伟 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 取出h1标签的文本 取出a标签的链接 取出所有li标签的所有内容 取出第2个li标签的a标签的第3个div标签的属性 取出一条新闻的标题、链接、发布时间、来源 阅读全文
posted @ 2018-03-29 20:09 157-符致伟 阅读(98) 评论(0) 推荐(0) 编辑
摘要: import jieba news = open('bignews.txt','r').read() news_cut = jieba.lcut(news) dict = {} for i in set(news_cut): dict[i]=news_cut.count(i) delete={'的' 阅读全文
posted @ 2018-03-28 15:57 157-符致伟 阅读(67) 评论(0) 推荐(0) 编辑
摘要: song = '''I never knewWhen the clock stopped and I'm looking at you I never thought I'll miss someone like you Someone I thought that I knew I never k 阅读全文
posted @ 2018-03-25 21:26 157-符致伟 阅读(191) 评论(0) 推荐(0) 编辑