摘要:
测试代码要利用到上一篇文章爬取到的数据,上一章链接:爬虫:多进程爬虫 , 本文要分析上一篇文章爬取到的数据库中的数据,结果分别是与男性/女性话题相关联的话题。 1. 遍历mongodb数据语法 1.1 测试代码 from pymongo import MongoClient client = Mon 阅读全文
摘要:
本文测试代码要利用到上一篇文章爬取到的数据,上一章链接:爬虫:获取动态加载数据(selenium)(某站) ,本文要爬取的内容是某乎提问上面的话题关键字 1. 多进程语法 1.1 语法1 import multiprocessing import time def func(x): print(x* 阅读全文
摘要:
如果网站数据是动态加载,需要不停往下拉进度条才能显示数据,用selenium模拟浏览器下拉进度条可以实现动态数据的抓取。 本文希望找到某乎某话题下讨论较多的问题,以此再寻找每一问题涉及的话题关键词(侵删)。 下面代码采用driver.execute_script("window.scrollTo(0 阅读全文
摘要:
注:本文代码中的cookie都需要替换为读者自己的cookie 1. 将数据导出到文本文档 1.1 测试代码 import requests from bs4 import BeautifulSoup from requests.exceptions import RequestException 阅读全文
摘要:
1. 发送web请求 1.1 requests 用requests库的get()方法发送get请求,常常会添加请求头"user-agent",以及登录"cookie"等参数 1.1.1 user-agent 登录网站,将"user-agent"值复制到文本文件 1.1.2 cookie 登录网站,将 阅读全文
摘要:
1. I/O 概述 程序与用户交互涉及到程序的输入输出(I/O) 一种类型是字符串,通过input() 和 print() 函数以及数据类型转换类函数如(int()),实现数据的输入输出。 另一种类型是读写文件,通过文件的创建、读和写,实现数据的输入输出。 本文叙述关于读写文件与组织文件 2. 文件 阅读全文
摘要:
1. 正则表达式概述 正则表达式(简称为 regex)是一些由字符和特殊符号组成的字符串, 描述了模式的重复或者表述多个字符。 正则表达式能按照某种模式匹配一系列有相似特征的字符串。 换句话说, 它们能够匹配多个字符串。 不同语言的正则表达式有差异,本文叙述是Python的正则表达式。 解释代码大多 阅读全文
摘要:
1. 装饰器概述 本文不涉及类装饰器。 装饰器是一个函数。 通常将函数作为参数传递给装饰器函数。 装饰器函数通常包含了一个闭包。闭包是函数内部一个函数,在函数内部增加了一个变量局部作用域。通常,装饰器会修改被装饰的函数。 2. 代码解释 2.1 函数装饰器用法简述 装饰器在紧挨着定义一个函数的 de 阅读全文
摘要:
想忽略异常就引发异常。不能预料到异常,引发异常没有意义。不可能预料到所有的异常。 阅读全文
摘要:
1. 函数概述 在编程的语境下,函数 (function) 是指一个有命名的、执行某个计算的语句序列 (sequence of statements) 。函数可以针对某类问题建立通用解决步骤(算法),函数减少了重复代码,从而让程序更简洁、易读、易于操作。 函数由对象、语句、表达式组成。 函数执行特定 阅读全文