随笔分类 -  爬虫

摘要:测试代码要利用到上一篇文章爬取到的数据,上一章链接:爬虫:多进程爬虫 , 本文要分析上一篇文章爬取到的数据库中的数据,结果分别是与男性/女性话题相关联的话题。 1. 遍历mongodb数据语法 1.1 测试代码 from pymongo import MongoClient client = Mon 阅读全文
posted @ 2021-05-20 13:52 thoustree 阅读(657) 评论(0) 推荐(0) 编辑
摘要:本文测试代码要利用到上一篇文章爬取到的数据,上一章链接:爬虫:获取动态加载数据(selenium)(某站) ,本文要爬取的内容是某乎提问上面的话题关键字 1. 多进程语法 1.1 语法1 import multiprocessing import time def func(x): print(x* 阅读全文
posted @ 2021-05-19 22:58 thoustree 阅读(163) 评论(0) 推荐(0) 编辑
摘要:如果网站数据是动态加载,需要不停往下拉进度条才能显示数据,用selenium模拟浏览器下拉进度条可以实现动态数据的抓取。 本文希望找到某乎某话题下讨论较多的问题,以此再寻找每一问题涉及的话题关键词(侵删)。 下面代码采用driver.execute_script("window.scrollTo(0 阅读全文
posted @ 2021-05-19 22:01 thoustree 阅读(776) 评论(0) 推荐(0) 编辑
摘要:注:本文代码中的cookie都需要替换为读者自己的cookie 1. 将数据导出到文本文档 1.1 测试代码 import requests from bs4 import BeautifulSoup from requests.exceptions import RequestException 阅读全文
posted @ 2021-05-19 16:52 thoustree 阅读(511) 评论(2) 推荐(0) 编辑
摘要:1. 发送web请求 1.1 requests 用requests库的get()方法发送get请求,常常会添加请求头"user-agent",以及登录"cookie"等参数 1.1.1 user-agent 登录网站,将"user-agent"值复制到文本文件 1.1.2 cookie 登录网站,将 阅读全文
posted @ 2021-05-19 00:04 thoustree 阅读(758) 评论(0) 推荐(0) 编辑

返回顶部
点击右上角即可分享
微信分享提示