摘要:
Hadoop综合大作业 本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 引言 本次作业分为四部分,是在《爬虫大作业》与《Hadoop环境搭建》的基础上进行的,在《爬虫大作业》中,我主要在已经搭建好了Hadoop、MySQL、MapReduce、HBASE、hive的Linux虚拟机中对中国传媒大学南广... 阅读全文
摘要:
分布式并行计算MapReduce 作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 1.用自己的话阐明Hadoop平台上 阅读全文
摘要:
分布式文件系统HDFS 练习 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根... 阅读全文
摘要:
安装关系型数据库MySQL 安装大数据处理框架Hadoop 简述Hadoop平台的起源、发展历史与应用现状。 列举发展过程中重要的事件、主要版本、主要厂商; 国内外Hadoop应用的典型案例。 (1)Hadoop的介绍: Hadoop最早起源于Nutch,Nutch的设计目标是构建一个大型的全网搜索 阅读全文
摘要:
爬虫综合大作业 作业要求来自于: 一.把爬取的内容保存取MySQL数据库 import pandas as pd import pymysql from sqlalchemy import create_engine conInfo = "mysql+pymysql://user:passwd@ho 阅读全文
摘要:
爬取全部的校园新闻 作业要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941 1.从新闻url获取新闻详情: 字典,anews 代码如下: 1 import requests 2 from bs4 import Beaut 阅读全文
摘要:
获取一篇新闻的全部信息 作业要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: ne 阅读全文
摘要:
理解爬虫原理 作业要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851 一、简单说明爬虫原理 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的 阅读全文
摘要:
中文词频统计 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word( 阅读全文
摘要:
复合数据类型,英文词频统计 作业要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696 一、列表,元组,字典,集合的增删改查及遍历 1.列表 (1)增: 1 dict={'tom':1,'ben':5,'amy':3,'ja 阅读全文