上一页 1 2 3 4 5 6 7 8 ··· 17 下一页
摘要: python爬虫学习: https://www.cnblogs.com/vvlj/p/9580423.html #四个步骤 1.查看crawl内容的源码格式 crawl的内容可以是 url(链接),文字,图片,视频 2.请求网页源码 (可能要设置)代理,限速,cookie 3.匹配 用正则表达式匹配 阅读全文
posted @ 2020-02-01 21:17 雨过山 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 今天爬取到了一些内容。 用hadoop进行数据清洗。 阅读全文
posted @ 2020-01-21 22:58 雨过山 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 今天学习没有多少进展。 学习了python如何访问子链接,但是对于想要爬取的网页格式还是不一样。 正则表达式看的不太懂。 阅读全文
posted @ 2020-01-19 22:17 雨过山 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 今天已经可以从网站上爬取内容。 但是在正则表达式上还不够理解,没法随意更改,得到自己想要的内容。 而且实际的网站比例子更加复杂,需要继续学习。 阅读全文
posted @ 2020-01-18 23:13 雨过山 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 今天继续学习python爬虫。 在防止爬虫的网站上,可以添加报头伪装成浏览器访问。 但是在爬取的格式上还有问题,出现了TypeError: expected string or bytes-like object报错。 阅读全文
posted @ 2020-01-17 21:48 雨过山 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 今天安装好了python,从网上找到有关爬虫的代码。 但是在爬取网页的时候,遇到了一些问题。 可能是代码的时间比较早,也可能是网页形式不一样。 阅读全文
posted @ 2020-01-16 21:59 雨过山 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 重装了系统。配置好了虚拟机环境。 安装好了hadoop,但是之前备份的项目在导入时出错。 阅读全文
posted @ 2020-01-15 22:53 雨过山 阅读(90) 评论(0) 推荐(0) 编辑
摘要: Result文件数据说明: Ip:106.39.41.166,(城市) Date:10/Nov/2016:00:01:02 +0800,(日期) Day:10,(天数) Traffic: 54 ,(流量) Type: video,(类型:视频video或文章article) Id: 8701(视频或 阅读全文
posted @ 2019-11-13 20:21 雨过山 阅读(129) 评论(0) 推荐(0) 编辑
摘要: package mapreduce; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWrit 阅读全文
posted @ 2019-10-30 22:58 雨过山 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 暑假已经结束,自己独立参照并完成了简单的学习任务。 期间遇到的问题都独自解决,熟悉并可以流畅的完成整个配置过程。 阅读全文
posted @ 2019-09-07 16:53 雨过山 阅读(109) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 17 下一页