Strava
上一页 1 2 3 4 5 6 7 8 9 10 ··· 16 下一页
摘要: 让python pip使用国内镜像# 国内源:# 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.c 阅读全文
posted @ 2020-10-09 11:14 cheflone 阅读(682) 评论(0) 推荐(0) 编辑
摘要: 1.官网下载 https://www.iterm2.com/ 2、将iTerm2设为默认终端: 3、给iTerm2设置全局快捷键: 4、配色: 5、安装oh-my-zsh sh -c "$(curl -fsSL https://raw.github.com/robbyrussell/oh-my-zs 阅读全文
posted @ 2020-10-06 20:14 cheflone 阅读(592) 评论(0) 推荐(0) 编辑
摘要: 1.在了解分布式爬虫之前先看看爬虫流程会好理解一些 1.1 爬虫算法流程 1.2 scrapy框架简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘, 信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 阅读全文
posted @ 2020-10-05 17:19 cheflone 阅读(1641) 评论(0) 推荐(0) 编辑
摘要: redis的基本操作 Redis 是一个高性能的key-value数据库, 支持主从同步, 完全实现了发布/订阅机制, 因此可以用于聊天室等场景. 主要表现于多个浏览器之间的信息同步和实时更新. 和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表 阅读全文
posted @ 2020-10-04 18:43 cheflone 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 报错Address already in use 表示redis 端口被占用 解决方法 输入 ps -ef | grep -i redis 查看redis进程,出现如下显示 [root@bisnow-01 redis-5.0.3]# ps -ef | grep -i redis root 1153 阅读全文
posted @ 2020-09-30 19:10 cheflone 阅读(624) 评论(0) 推荐(0) 编辑
摘要: 1.小例子思路草图 2.遇到的问题 2.1 异端请求(容易忽略) 在跳转详情页时候,请求的域名发生了变化,scrapy会给你过滤掉这个url 2.1.1.解决 更改spider.py allowed_domains= ['www.xxx.com'] allowed_domains= ['www.xx 阅读全文
posted @ 2020-09-29 09:30 cheflone 阅读(920) 评论(0) 推荐(0) 编辑
摘要: 一、模型类属性命名限制 参考:https://docs.djangoproject.com/zh-hans/3.0/topics/db/models/ 1)不能是python的保留关键字。2)不允许使用连续的下划线,这是由django的查询方式决定的。例如:b__title = models.Cha 阅读全文
posted @ 2020-09-28 09:50 cheflone 阅读(702) 评论(0) 推荐(0) 编辑
摘要: 1.setting是scrapy的配置文件 比较好理解的是配置文件存放公共变量(比如数据库地址。账号密码等),方便别人或自己修改。 一般来说都使用大写的字母来命名变量名,如:HOST=‘127.0.0.1’ 2. setting内容 #==>第一部分:基本配置< #1、项目名称,默认的USER_AG 阅读全文
posted @ 2020-09-24 11:18 cheflone 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 1.使用方法 编写一个DOWNLOADER_MIDDLEWARES和pipline差不多,都是定义一个类,在setting中开启一般而言,scrapy都会自动给你生成。setting.py DOWNLOADER_MIDDLEWARES = { # 'projectname.middlewares.y 阅读全文
posted @ 2020-09-22 15:44 cheflone 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 1. 重写start_requests(self) 方法 2.start_requests(self)的返回值 yield scrapy.FormRequest(url=url, callback=self.parse_post, formdata=data, ) url:请求的post地址 cal 阅读全文
posted @ 2020-09-21 08:59 cheflone 阅读(789) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 16 下一页