摘要: 今日收获 将ppt写完啦!! 背了不少的单词,明天一定要记得报名六级去!!! 学习hadoop的基础知识嘞! 还有,学到了python爬取数据的话,是分为url是否带参数的(params)! 明天预计 报名六级!! 希望开发案例能发挥得好一点! 继续学习大数据的相关知识! 背单词当然少不了啊! 阅读全文
posted @ 2023-09-18 22:30 yesyes1 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 1、获取知乎网的url 2、检查后台--获取header信息 3、获取json数据 4、输出数据 阅读全文
posted @ 2023-09-18 21:46 yesyes1 阅读(17) 评论(0) 推荐(0) 编辑
摘要: 发现一个问题,要是想要把网站中的数据提取出来之后, 变成json数据格式存储起来,就需要先把想要查看的关键信息用dict类型封装起来,然后才能转换成格式正确的json文件; 就比如这样: 妥妥的json数据格式欸!!! 一个简单实例: 阅读全文
posted @ 2023-09-18 21:24 yesyes1 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 1、导入相关依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>had 阅读全文
posted @ 2023-09-18 19:26 yesyes1 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 前提是配置好hadoop的相关环境 1、分析网页,确定采集的数据 我们需要获取到该网页的如下几个信息: 请求信息: url——网站页面地址 设置这个请求的请求头: headers——(user-agent/referer/origin/cookie) 设置这个请求的传递数据: data——(firs 阅读全文
posted @ 2023-09-18 18:15 yesyes1 阅读(75) 评论(0) 推荐(0) 编辑