Zhms

2019年6月19日

摘要：本次作业的要求来自：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 前言本次作业是在《爬虫大作业》的基础上进行的，在《爬虫大作业》中，我主要对豆瓣网各类型书籍进行数据爬取，最终得到了2641条数据存在一个名为lagoupy. 阅读全文

posted @ 2019-06-19 18:31 Zhms 阅读(380) 评论(0) 推荐(0)

2019年6月1日

分布式文件系统HDFS

摘要：作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292 利用Shell命令与HDFS进行交互以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作在HDFS中为hadoop用户创建一个用户目录（hadoo 阅读全文

posted @ 2019-06-01 11:59 Zhms 阅读(238) 评论(0) 推荐(0)

2019年5月12日

安装关系型数据库MySQL 安装大数据处理框架Hadoop

摘要：作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161 一.简述Hadoop平台的起源、发展历史与应用现状。 1.列举发展过程中重要的事件、主要版本、主要厂商；说到Hadoop的起源，不得不说到一个传奇的IT公司—全球IT 阅读全文

posted @ 2019-05-12 18:13 Zhms 阅读(170) 评论(0) 推荐(0)

2019年4月28日

爬虫综合大作业

摘要：作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 一.把爬取的内容保存取MySQL数据库 import pandas as pd import pymysql from sqlalchemy import create 阅读全文

posted @ 2019-04-28 19:42 Zhms 阅读(279) 评论(0) 推荐(0)

2019年4月12日

爬取全部的校园新闻

摘要：作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941 import requests from bs4 import BeautifulSoup from datetime import datetime import r 阅读全文

posted @ 2019-04-12 22:18 Zhms 阅读(174) 评论(0) 推荐(0)

2019年4月3日

获取一篇新闻的全部信息

摘要：作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894 给定一篇新闻的链接newsUrl，获取该新闻的全部信息标题、作者、发布单位、审核、来源发布时间:转换成datetime类型点击： newsUrl newsId(使阅读全文

posted @ 2019-04-03 22:28 Zhms 阅读(160) 评论(0) 推荐(0)

2019年3月27日

理解爬虫原理

摘要：作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851 1.简单说明爬虫原理网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。 2. 理解爬虫开发过程 1). 阅读全文

posted @ 2019-03-27 20:11 Zhms 阅读(282) 评论(0) 推荐(0)

2019年3月18日

中文词频统计

摘要：作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773 一.下载一篇中文长篇小说并从文件中读取待分析文本二.安装jieba 三. (1)更新词库，加入所分析对象的专业词汇。 (2)生成词频统计 (3)排序 (4)排除语法型阅读全文

posted @ 2019-03-18 21:44 Zhms 阅读(200) 评论(0) 推荐(0)

2019年3月14日

复合数据类型，英文词频统计

摘要：作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696 1.列表，元组，字典，集合分别如何增删改查及遍历。列表的增删改查list1 = list('this is a list')#增加list1.append('!') 阅读全文

posted @ 2019-03-14 17:00 Zhms 阅读(246) 评论(0) 推荐(0)

2019年3月6日

作业二: 字符串、文件操作，英文词频统计预处理

摘要：作业要求详情：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646 1.字符串操作：解析身份证号：生日、性别、出生地等。凯撒密码编码与解码网址观察与批量生成 2.英文词频统计预处理下载一首英文的歌词或文章或小说，保存为utf 阅读全文

posted @ 2019-03-06 14:45 Zhms 阅读(175) 评论(0) 推荐(0)

公告