2021 年 6月 3 日随笔档案 - 帅超007

2021年6月3日

摘要：当通过json爬取数据时会显得相对简单，因为数据是通过键对值进行爬取的，这里面需要注意的是当网页中数据很多并且是动态生成的——比如下拉查看新数据。这些数据都是存放着在json中的，我们需要找到json的网页，然后去掉非法字符使得python可以识别json，然后找到对应的键值进行爬取，在这里面阅读全文

posted @ 2021-06-03 09:13 帅超007 阅读(44) 评论(0) 推荐(0) 编辑

爬虫经验总结一

摘要：在爬取数据时有两种主要的方法: 第一种方法是通过标签爬取数据，当想要爬取的数据格式相同时用这种方法很合适，在爬取新闻数据使用到这种方法时，需要注意的是新闻页面驳杂，有些是新闻子页，有一些是广告子页，还有很多是图片为主的新闻子页，遇到这种情况按照情况爬取自新闻面链接，通过观察发现正常的新闻子页的链阅读全文

posted @ 2021-06-03 09:09 帅超007 阅读(77) 评论(0) 推荐(0) 编辑

爬取搜狐新闻科技类

摘要： #-*-coding:utf-8-*- # @Time :2021/4/22 7:08 # @Author:shuaichao # @File :.py # @Software: PyCharm from bs4 import BeautifulSoup #网页解析，获悉数据.231 import 阅读全文

posted @ 2021-06-03 08:56 帅超007 阅读(138) 评论(0) 推荐(0) 编辑

爬取搜狐新闻金融类

摘要： #-*-coding:utf-8-*- # @Time :2021/4/22 7:08 # @Author:shuaichao # @File :.py # @Software: PyCharm from bs4 import BeautifulSoup #网页解析，获悉数据.231 import 阅读全文

posted @ 2021-06-03 08:54 帅超007 阅读(107) 评论(0) 推荐(0) 编辑

爬取搜狐新闻时尚类

摘要： #-*-coding:utf-8-*- # @Time :2021/4/17 14:58 # @Author:shuaichao # @File :.py # @Software: PyCharm import gzip from bs4 import BeautifulSoup #网页解析，获悉数阅读全文

posted @ 2021-06-03 08:53 帅超007 阅读(62) 评论(0) 推荐(0) 编辑

爬取搜狐娱乐类新闻

摘要： #-*-coding:utf-8-*- # @Time :2021/4/22 7:08 # @Author:shuaichao # @File :.py # @Software: PyCharm from bs4 import BeautifulSoup #网页解析，获悉数据.231 import 阅读全文

posted @ 2021-06-03 08:51 帅超007 阅读(69) 评论(0) 推荐(0) 编辑

爬取搜狐教育类新闻

摘要： #-*-coding:utf-8-*- # @Time :2021/4/17 14:58 # @Author:shuaichao # @File :.py # @Software: PyCharm from bs4 import BeautifulSoup #网页解析，获悉数据.231 import 阅读全文

posted @ 2021-06-03 08:45 帅超007 阅读(75) 评论(0) 推荐(0) 编辑

帅超007

公告