091梁耀

2018年5月25日

摘要： 1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。启动hadoop：查看hdfs上的文件夹：将本地系统hadoop文件夹里的王子英文版故事LittlePrince.txt上传至hdfs的hive文件夹中：查看hdfs上的LittlePrince.tx 阅读全文

posted @ 2018-05-25 18:38 091梁耀阅读(106) 评论(0) 推荐(0)

2018年5月10日

理解MapReduce

摘要： 1. 用Python编写WordCount程序并提交任务程序 WordCount 输入一个包含大量单词的文本文件输出文件中每个单词及其出现次数（频数），并按照单词字母顺序排序，每个单词和其频数占一行，单词和频数之间有间隔 1.编写map函数，reduce函数 2.将其权限作出相应修改 3.本阅读全文

posted @ 2018-05-10 19:57 091梁耀阅读(146) 评论(0) 推荐(0)

2018年5月4日

熟悉常用的HBase操作

摘要： 1. 以下关系型数据库中的表和数据，要求将其转换为适合于HBase存储的表并插入数据：学生表（Student）（不包括最后一列）学号（S_No）姓名（S_Name）性别（S_Sex）年龄（S_Age）课程（course） 2015001 Zhangsan male 23 2015003 阅读全文

posted @ 2018-05-04 19:46 091梁耀阅读(106) 评论(0) 推荐(0)

2018年4月26日

第三章熟悉常用的HDFS操作

摘要：一、Hadoop提供的Shell命令完成相同任务：在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt，里面可以随意输入一些单词.在本地查看文件位置（ls）在本地显示文件内容使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。查看h 阅读全文

posted @ 2018-04-26 21:46 091梁耀阅读(182) 评论(0) 推荐(0)

2018年4月23日

爬虫大作业

摘要： 1.选一个自己感兴趣的主题或网站。(所有同学不能雷同) 2.用python 编写爬虫程序，从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析，生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客，描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全阅读全文

posted @ 2018-04-23 17:58 091梁耀阅读(191) 评论(0) 推荐(0)

2018年4月17日

数据结构化与保存

摘要： 1. 将新闻的正文内容保存到文本文件。 def writeNewsDetail(content): f = open('gzccnews.txt', 'a',encoding='utf-8') f.write(content) f.close() 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.... 阅读全文

posted @ 2018-04-17 19:26 091梁耀阅读(117) 评论(0) 推荐(0)

2018年4月11日

使用正则表达式，取得点击次数，函数抽离

摘要： 1. 用正则表达式判定邮箱是否输入正确。 e='454181644@qq.com' r='^(\w)+([\.\_\-]\w+)*@(\w)+((\.\w{2,3}){1,3})$' print(re.match(r,e)) 2. 用正则表达式识别出全部电话号码。 tel='版权所有：广州商学院地址：广州市黄埔区九龙大道206号学校办公室：020-82876130 招生电话：0... 阅读全文

posted @ 2018-04-11 23:26 091梁耀阅读(197) 评论(0) 推荐(0)

2018年4月2日

爬取校园新闻首页的新闻

摘要： 1 1. 用requests库和BeautifulSoup库，爬取校园新闻首页新闻的标题、链接、正文。 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/' 7 res = requests.get(url) 8 res.... 阅读全文

posted @ 2018-04-02 16:05 091梁耀阅读(222) 评论(0) 推荐(0)

2018年3月29日

网络爬虫基础练习

摘要： 0.可以新建一个用于练习的html文件，在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get( 阅读全文

posted @ 2018-03-29 16:50 091梁耀阅读(103) 评论(0) 推荐(0)

2018年3月26日

综合练习：词频统计

摘要： song = ''' An empty street，An empty house，A hole inside my heart，I'm all alone，The rooms are getting smaller，I wonder how，I wonder why，I wonder where they are，The days we had，The songs we sang togeth... 阅读全文

posted @ 2018-03-26 13:29 091梁耀阅读(101) 评论(0) 推荐(0)

公告