随笔 - 89
文章 - 43
评论 - 3
阅读 -
39982
10 2019 档案
爬虫 - 博客爬取并入库
摘要:```python ''' 对崔庆才的个人博客上的文章基本信息的爬取 (共41页) https://cuiqingcai.com/page/1 标题、链接、浏览的数目、评论的数目以及喜欢的人数 ''' import re import requests import logging from lxml import etree import pymysql logging.basicConfig(
阅读全文
爬虫 - selenium模块
摘要:selenium介绍: selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种常见的浏览器 官网:
阅读全文
crontab 使用
摘要:crontab的使用 python 进入crontab crontab e 查看crontab内容 crontab l 参数介绍 分 小时 日 月 星期 命令 0 59 0 23 1 12 0 6 0 6 command 例: /15 ls 每十五分钟执行ls 0 /2 ls 每两个小时执行一次ls
阅读全文