2023 年 9月 18 日随笔档案 - yesyes1

2023年9月18日

摘要：今日收获将ppt写完啦！！背了不少的单词，明天一定要记得报名六级去！！！学习hadoop的基础知识嘞！还有，学到了python爬取数据的话，是分为url是否带参数的（params）！明天预计报名六级！！希望开发案例能发挥得好一点！继续学习大数据的相关知识！背单词当然少不了啊！阅读全文

posted @ 2023-09-18 22:30 yesyes1 阅读(4) 评论(0) 推荐(0) 编辑

指定请求头部爬取知乎网

摘要： 1、获取知乎网的url 2、检查后台--获取header信息 3、获取json数据 4、输出数据阅读全文

posted @ 2023-09-18 21:46 yesyes1 阅读(20) 评论(0) 推荐(0) 编辑

让python采集的数据存储为json类型

摘要：发现一个问题，要是想要把网站中的数据提取出来之后，变成json数据格式存储起来，就需要先把想要查看的关键信息用dict类型封装起来，然后才能转换成格式正确的json文件；就比如这样：妥妥的json数据格式欸！！！一个简单实例：阅读全文

posted @ 2023-09-18 21:24 yesyes1 阅读(36) 评论(0) 推荐(0) 编辑

HttpClient采集页面数据

摘要： 1、导入相关依赖  <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>had 阅读全文

posted @ 2023-09-18 19:26 yesyes1 阅读(80) 评论(0) 推荐(0) 编辑

Python实现数据采集

摘要：前提是配置好hadoop的相关环境 1、分析网页，确定采集的数据我们需要获取到该网页的如下几个信息：请求信息： url——网站页面地址设置这个请求的请求头： headers——（user-agent/referer/origin/cookie）设置这个请求的传递数据： data——（firs 阅读全文

posted @ 2023-09-18 18:15 yesyes1 阅读(96) 评论(0) 推荐(0) 编辑

liuzijin

公告