摘要:
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 大数据分析: 1.将爬虫大作业产生的csv文件上传到HDFS Python爬取到的数据: (1)首先创建一个用于运行本案例的目录bigdatacase (2)在本地 阅读全文
摘要:
本次作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310 利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 执行start-dfs.sh命令开启进程 1.目录操作 1)在HDF 阅读全文
摘要:
本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223 1.安装Linux (1)虚拟机命名,选择操作系统,版本 (2)选择内存大小 (3)启动Ubuntu (4)添加镜像文件 (5)开始安装Ubuntu (6)新 阅读全文
摘要:
本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 爬虫综合大作业 于2009年6月26日创建,被粉丝们亲切的称为“B站”的哔哩哔哩(bilibili),现在可以说是无人不晓。但你们是否知道哔哩哔哩这名称的来历 阅读全文
摘要:
本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 0.从新闻url获取点击次数,并整理成函数 newsUrl newsId(re.search()) clickUrl(str.format()) reque 阅读全文
摘要:
本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理 程序通过模拟浏览器请求站点,把站点返回的HTML代码、JSON数据、图片视频数据爬到本地,进而提取需要的数据。 2. 理解爬虫开发过程 阅读全文
摘要:
本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 一、中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba i 阅读全文
摘要:
本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753 一、列表,元组,字典,集合分别如何增删改查及遍历 1、列表 •增 •删 •改 •查 2、元组 元组与列表类似,不同之处在于元组的元素不能修改; 元组中只包含一 阅读全文
摘要:
本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684 1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 网址观察与批量生成 2.英文词频统计预处理 阅读全文
摘要:
本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 1.这些分析所采用数据的来源是什么? (1)交易数据。各大交易平台点击、浏览、交易订单数据; (2)互联网上的“开放数据”来源。政府机构,非营利组织和企业免费 阅读全文