雨过山 - 博客园

2020年2月1日

摘要： python爬虫学习： https://www.cnblogs.com/vvlj/p/9580423.html #四个步骤 1.查看crawl内容的源码格式 crawl的内容可以是 url(链接），文字，图片，视频 2.请求网页源码（可能要设置）代理，限速，cookie 3.匹配用正则表达式匹配阅读全文

posted @ 2020-02-01 21:17 雨过山阅读(97) 评论(0) 推荐(0) 编辑

2020年1月21日

大三寒假作业06

摘要：今天爬取到了一些内容。用hadoop进行数据清洗。阅读全文

posted @ 2020-01-21 22:58 雨过山阅读(92) 评论(0) 推荐(0) 编辑

2020年1月19日

大三寒假作业05

摘要：今天学习没有多少进展。学习了python如何访问子链接，但是对于想要爬取的网页格式还是不一样。正则表达式看的不太懂。阅读全文

posted @ 2020-01-19 22:17 雨过山阅读(123) 评论(0) 推荐(0) 编辑

2020年1月18日

大三寒假作业04

摘要：今天已经可以从网站上爬取内容。但是在正则表达式上还不够理解，没法随意更改，得到自己想要的内容。而且实际的网站比例子更加复杂，需要继续学习。阅读全文

posted @ 2020-01-18 23:13 雨过山阅读(99) 评论(0) 推荐(0) 编辑

2020年1月17日

大三寒假作业03

摘要：今天继续学习python爬虫。在防止爬虫的网站上，可以添加报头伪装成浏览器访问。但是在爬取的格式上还有问题，出现了TypeError: expected string or bytes-like object报错。阅读全文

posted @ 2020-01-17 21:48 雨过山阅读(81) 评论(0) 推荐(0) 编辑

2020年1月16日

大三寒假作业02

摘要：今天安装好了python，从网上找到有关爬虫的代码。但是在爬取网页的时候，遇到了一些问题。可能是代码的时间比较早，也可能是网页形式不一样。阅读全文

posted @ 2020-01-16 21:59 雨过山阅读(95) 评论(0) 推荐(0) 编辑

2020年1月15日

大三寒假作业01

摘要：重装了系统。配置好了虚拟机环境。安装好了hadoop，但是之前备份的项目在导入时出错。阅读全文

posted @ 2020-01-15 22:53 雨过山阅读(90) 评论(0) 推荐(0) 编辑

2019年11月13日

hive

摘要： Result文件数据说明： Ip：106.39.41.166,（城市） Date：10/Nov/2016:00:01:02 +0800,（日期） Day：10,（天数） Traffic: 54 ,（流量） Type: video,（类型：视频video或文章article） Id: 8701（视频或阅读全文

posted @ 2019-11-13 20:21 雨过山阅读(129) 评论(0) 推荐(0) 编辑

2019年10月30日

10月30日课堂测试

摘要： package mapreduce; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWrit 阅读全文

posted @ 2019-10-30 22:58 雨过山阅读(196) 评论(0) 推荐(0) 编辑

2019年9月7日

暑假学习进度10

摘要：暑假已经结束，自己独立参照并完成了简单的学习任务。期间遇到的问题都独自解决，熟悉并可以流畅的完成整个配置过程。阅读全文

posted @ 2019-09-07 16:53 雨过山阅读(109) 评论(0) 推荐(0) 编辑