摘要:
前两天在BOSS上找爬虫工作,投了N份简历,很少有回复的,唯一能看到点希望的是一家旅游公司,BOSS上回复说:要求做一些航空公司的爬虫,做好之后把思路和一些数据发过去,再谈后续的面试问题。 发过来两个爬虫项目,说如果面试通过,会根据所选的爬虫项目进行工资定级,我选了这个据说是难度更大一些的:air 阅读全文
摘要:
pycharm 远程服务器调试模块:pydevd 参考:https://blog.csdn.net/g8433373/article/details/79438039_sqlite3模块缺失问题参考:https://blog.csdn.net/yemazhuxing/article/details/80462112 阅读全文
摘要:
远程连接需要在postgresql中建立用户,即spideruser用户,postgres是作为服务器登陆的用户来使用,同时需要设置postgresql.conf pg_hba.conf开通权限以及5432端口 # centos crontab功能注意事项: 运行python命令需要指定路径 如 * 阅读全文
摘要:
# 链接:https://github.com/hejianlong/wechat_spider 阅读全文
摘要:
主要原因:需要下载文件并保留原有后缀名,但scrapy的下载管道没有这个选项,需要重新定义filespipelines功能,参考其他人的文件, 阅读全文
摘要:
# 如果需要使用contains选择包括一些内容的同时,且不包含另外一部分内容,这样写: //a[contains(@href,"node")][not(contains(@href,"/m/"))] 阅读全文
摘要:
问题1: # windows系统下终端输出汉字错误:报gbk编码问题, 原因及解决方法: windows终端默认编码格式为gbk,需要更改为utf-8,通过chcp命令查看是否为65001,如果不是,则使用 chcp 65001命令变更编码格式,但这是临时的,仍未找到可找到持久变更方法。 阅读全文
摘要:
2、aqicn.py # 读取队列进行任务解析并存储 3、redis_read.py # 从redis数据库中取值并删除原值,且一旦有新值传入,继续读取并删除,做到持久化,可以直接展示,或者存到mysql数据中 阅读全文
摘要:
执行自动化操作时,如果出错,需要通过日志功能保存错误信息,这里写下从网上找到的相关配置资料 阅读全文
摘要:
a = [1,2,3] b = a print(a,b) print(id(a),id(b)) # [1, 2, 3] [1, 2, 3] # 2346301641544 2346301641544 b += [4,5] print(a,b) print(id(a),id(b)) # [1, 2, 3, 4, 5] [1, 2, 3, 4, 5] # 2346301641544 23463016... 阅读全文