摘要:删除首行记录 生成txt文件 上传到hdfs中: 在hive中创建数据表并把hdfs的数据导入表中 使用hive进行数据分析: 查询总记录数(如图)由于以空行作为分隔符,因此实际数据量应当除以2,即16万。 搜索量最高的是? 选取“搜索量”列进行降序排序,并选取排名前十的数据 从表中可以看出搜索量最 阅读全文
分布式并行计算MapReduce
2019-06-03 23:45 by 科ke, 414 阅读, 0 推荐, 收藏, 编辑
摘要:1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS (1)第一次启动 namenode 格式化后,创建 fsimage 和 edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求。(3)name 阅读全文
分布式文件系统HDFS 练习
2019-05-29 16:16 by 科ke, 212 阅读, 0 推荐, 收藏, 编辑
摘要:1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input”目录 2.文件操作 使用vim编辑器,在本地Linux文件系统的“/home/hadoop/” 阅读全文
安装关系型数据库MySQL 安装大数据处理框架Hadoop
2019-05-06 12:12 by 科ke, 351 阅读, 0 推荐, 收藏, 编辑
摘要:4. 简述Hadoop平台的起源、发展历史与应用现状。 列举发展过程中重要的事件、主要版本、主要厂商; Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。Cloudera(英语:Cloudera, Inc.)是一家位于美国的软件公司,向企业客户提供基于Apache Hadoop 阅读全文
爬虫综合大作业
2019-04-24 19:56 by 科ke, 541 阅读, 0 推荐, 收藏, 编辑
摘要:共抓取了16万数据 对这16万数据进行数据分析如下 爬取了2017-2019微博热搜16万数据进行分析 一、搜索量最高的是? 选取“搜索量”列进行降序排序,并选取排名前十的数据建立数据透视表 从表中可以看出搜索量最高的是“刘恺威杨幂离婚”唯一一个搜索量突破2000万,其次是“鹿晗关晓彤”“李咏去世” 阅读全文
爬取全部的校园新闻
2019-04-09 15:53 by 科ke, 162 阅读, 0 推荐, 收藏, 编辑
摘要:老师:MissDu 提交作业 老师:MissDu 提交作业 1.从新闻url获取新闻详情: 字典,anews 2.从列表页的url获取新闻url:列表append(字典) alist 3.生成所页列表页的url并获取全部新闻 :列表extend(列表) allnews *每个同学爬学号尾数开始的 阅读全文
获取一篇新闻的全部信息
2019-04-01 19:18 by 科ke, 208 阅读, 0 推荐, 收藏, 编辑
摘要:import requests from datetime import datetime from bs4 import BeautifulSoup def newsdt(shareinfo): newsDate = shareinfo.split()[0].split(':')[1] newsT 阅读全文
理解爬虫原理
2019-03-25 19:54 by 科ke, 177 阅读, 0 推荐, 收藏, 编辑
摘要:1. 简单说明爬虫原理 发起请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。获取响应内容:如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进 阅读全文
中文词频统计
2019-03-18 19:44 by 科ke, 219 阅读, 0 推荐, 收藏, 编辑
摘要:中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' 阅读全文
复合数据类型,英文词频统计
2019-03-11 22:54 by 科ke, 244 阅读, 0 推荐, 收藏, 编辑
摘要:复合数据类型 1.列表,元组,字典,集合分别如何增删改查及遍历。 一、列表操作 list.insert(index, obj) 增加元素到指定位置 list.pop(index) 删除指定位置的元素,index是索引 list[index]=obj 修改指定位置的元素 list[index] 通过下 阅读全文