摘要:
self.setting = Settings({ 'BOT_NAME': settings.BOT_NAME, #scrapy的项目名字 'SPIDER_MODULES': settings.SPIDER_MODULES,#Scrapy搜索spider的模块列表 默认: [xxx.spiders] 阅读全文
摘要:
#!/usr/bin/env python import logging import os import subprocess import sys try: from subprocess import DEVNULL except ImportError: # Python 3.2 or be 阅读全文
摘要:
import sys import time def get_terminal_size(): """Get (width, height) of the current terminal.""" try: import fcntl, termios, struct # fcntl module o 阅读全文
摘要:
简单记录方便自己用 压缩文件夹 tar -czvf spider.tar.gz spider 前面的是压缩后的文件名 后面的是要压缩的文件夹的名字 解压 tar -xzvf spider.tar.gz 解压文件夹到当前位置 如果解压到指定的位置,需要在后面跟大写的-C - tar -xvzf /da 阅读全文
摘要:
使用正则表达式来获取一段文本中的任意字符,(. ) 结果运行之后才发现,无法获得换行之后的文本。 因为“.”(点符号)匹配的是除了换行符“\n”以外的所有字符。 以下为正确的正则表达式匹配规则: (. )替换为([\s\S] )即可 阅读全文
摘要:
1.首先,删除本地的分支 2.所以,目前本地只有master分支了。 3.pull一下master的最新的代码本地 4.创建新的分支 5.修改代码之后,点击项目根目录右键选择Commit Directory 之后弹出框 对已经track并且修改的内容会打勾,输入commit的内容即可。 6.git 阅读全文
摘要:
python3.5以后上面的代码可以改为async/await的形式 阅读全文
摘要:
python的sys.modules可以在运行的时候把所有的模块加载到内存,后面再使用的时候直接存内存取就行了,例如 获取里的copy模块然后使用deepcopy进行后续的操作 阅读全文
摘要:
使用requests的时候 成功拿到location和set cookie 然而。。。。 使用scrapy 可以成功获取loction 但是在获取set cookie的时候 首先上面的代码不会出错,并且取出来的确实是string,但是你会发现它只能取出一部分的cookie,这个时候我们就要用的另外的 阅读全文