tulintao

2019年9月18日

摘要：首先： 1、项目组长要在GitHub创建一个仓库 2、组长git clone仓库地址到本地 3、组长在本地克隆到的项目里面创建一个Django项目 4、在当前项目下进行git add以及git commit操作，将Django项目提交到GitHub上面 5、组长邀请组员来共同开发这个项目（在sett 阅读全文

posted @ 2019-09-18 01:46 tulintao 阅读(1035) 评论(0) 推荐(0) 编辑

2019年9月17日

scrapy-redis分布式爬取猫眼电影

摘要：能够利用redis缓存数据库的优点去重来避免数据的大面积冗余 1、首先就是要创建猫眼爬虫项目 2、进入项目内部创建一个爬虫文件创建完文件之后就是要爬取的内容，我这边以爬取猫眼电影的title和link为例（这个完全看个人你可以先去写爬虫，然后再来写items文件） 3、编写item文件 4、编写爬阅读全文

posted @ 2019-09-17 08:50 tulintao 阅读(407) 评论(0) 推荐(0) 编辑

2019年9月16日

redis hyperloglog

摘要： Redis 在 2.8.9 版本添加了 HyperLogLog 结构 Redis HyperLogLog 是用来做基数统计的算法，HyperLogLog 的优点是，在输入元素的数量或者体积非常非常大时，计算基数所需的空间总是固定的、并且是很小的。在 Redis 里面，每个 HyperLogLog 阅读全文

posted @ 2019-09-16 14:54 tulintao 阅读(255) 评论(0) 推荐(0) 编辑

redis键（key）

摘要： redis键：用于管理redis的键上面的例子中，del是一个命令，runoodkey是一个键。如果成功被删除，就会返回1，否则就会输出0 redis keys命令 del key：该命令在key存在的时候删除key dump key：序列化给定key，并返回被序列化的值 exists ke 阅读全文

posted @ 2019-09-16 11:46 tulintao 阅读(195) 评论(0) 推荐(0) 编辑

redis--数据类型

摘要： redis支持五种数据类型： string（字符串） string时redis最基本的类型，一个key对应一个value string类型是二进制安全的，也就是redis可以包含任何数据。比如jpg图片或者序列化的对象 string是redis最基本的数据类型，string类型的值最大能存储512M 阅读全文

posted @ 2019-09-16 11:26 tulintao 阅读(311) 评论(0) 推荐(0) 编辑

redis中重启和停止服务

摘要：首先需要打开两个终端，一个是服务端，一个是客户端 1、开启服务端 redis-server 2、开启客户端 redis-cli 关闭双方之间的连接：在客户端中输入：redis-cli shutdown 为了防止输入的是中文而取出来的时候是乱码的问题：可以在开启客户端的时候使用：redis-cli 阅读全文

posted @ 2019-09-16 10:30 tulintao 阅读(19781) 评论(0) 推荐(0) 编辑

2019年9月15日

FakeUserAgentError('Maximum amount of retries reached') 彻底解决办法

摘要：当上面这些方式都无效的时候，就需要使用本地保存获取了阅读全文

posted @ 2019-09-15 14:39 tulintao 阅读(867) 评论(0) 推荐(0) 编辑

Django与mongodb数据库的连接

摘要： 1、最开始需要下载一个第三方模块：mongoengine 2、下载完成之后，需要在settings中完成配置（在DATABASES后面，别问我为什么，问了我也不告诉你...） connect中传入的是mongodb中的数据库的库 3、之后就是在app的models中构建数据库模型了（构建的方式和My 阅读全文

posted @ 2019-09-15 14:36 tulintao 阅读(2671) 评论(0) 推荐(0) 编辑

2019年9月11日

爬虫--分布式爬虫

摘要：爬虫的本质：很多搞爬虫的总爱吹嘘分布式爬虫，仿佛只有分布式才有逼格，不是分布式简直不配叫爬虫，这是一种很肤浅的思想。分布式只是提高爬虫功能和效率的一个环节而已，它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理，如何稳定地访问网页拿到数据，如何精准地提取出高质量的数据才是核心问题。分布式爬阅读全文

posted @ 2019-09-11 15:45 tulintao 阅读(304) 评论(0) 推荐(0) 编辑

爬虫--任务分割方法

摘要：爬虫是一个相对来说比较容易上手的技术，也许你画个几分钟就可以将一整个网页上的数据得到，但是如果对于大规模的爬虫就是另外一回事了，这个并不是1*n的问题这么简单的，在这里面还会产生很多别的问题。这是一个大规模爬虫的流程图：先检查是否有API： API是网站官方提供的数据接口，如果通过调用API采集阅读全文

posted @ 2019-09-11 15:25 tulintao 阅读(845) 评论(0) 推荐(0) 编辑

公告