摘要:
首先: 1、项目组长要在GitHub创建一个仓库 2、组长git clone仓库地址到本地 3、组长在本地克隆到的项目里面创建一个Django项目 4、在当前项目下进行git add以及git commit操作,将Django项目提交到GitHub上面 5、组长邀请组员来共同开发这个项目(在sett 阅读全文
摘要:
能够利用redis缓存数据库的优点去重来避免数据的大面积冗余 1、首先就是要创建猫眼爬虫项目 2、进入项目内部创建一个爬虫文件 创建完文件之后就是要爬取的内容,我这边以爬取猫眼电影的title和link为例(这个完全看个人你可以先去写爬虫,然后再来写items文件) 3、编写item文件 4、编写爬 阅读全文
摘要:
Redis 在 2.8.9 版本添加了 HyperLogLog 结构 Redis HyperLogLog 是用来做基数统计的算法,HyperLogLog 的优点是,在输入元素的数量或者体积非常非常大时,计算基数所需的空间总是固定 的、并且是很小的。 在 Redis 里面,每个 HyperLogLog 阅读全文
摘要:
redis键: 用于管理redis的键 上面的例子中,del是一个命令,runoodkey是一个键。如果成功被删除,就会返回1,否则就会输出0 redis keys命令 del key: 该命令在key存在的时候删除key dump key: 序列化给定key,并返回被序列化的值 exists ke 阅读全文
摘要:
redis支持五种数据类型: string(字符串) string时redis最基本的类型,一个key对应一个value string类型是二进制安全的,也就是redis可以包含任何数据。比如jpg图片或者序列化的对象 string是redis最基本的数据类型,string类型的值最大能存储512M 阅读全文
摘要:
首先需要打开两个终端,一个是服务端,一个是客户端 1、开启服务端 redis-server 2、开启客户端 redis-cli 关闭双方之间的连接: 在客户端中输入:redis-cli shutdown 为了防止输入的是中文而取出来的时候是乱码的问题: 可以在开启客户端的时候使用:redis-cli 阅读全文
摘要:
当上面这些方式都无效的时候,就需要使用本地保存获取了 阅读全文
摘要:
1、最开始需要下载一个第三方模块:mongoengine 2、下载完成之后,需要在settings中完成配置(在DATABASES后面,别问我为什么,问了我也不告诉你...) connect中传入的是mongodb中的数据库的库 3、之后就是在app的models中构建数据库模型了(构建的方式和My 阅读全文
摘要:
爬虫的本质: 很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简直不配叫爬虫,这是一种很肤浅的思想。 分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是核心问题。分布式爬 阅读全文
摘要:
爬虫是一个相对来说比较容易上手的技术,也许你画个几分钟就可以将一整个网页上的数据得到,但是如果对于大规模的爬虫就是另外一回事了,这个并不是1*n的问题这么简单的,在这里面还会产生很多别的问题。 这是一个大规模爬虫的流程图: 先检查是否有API: API是网站官方提供的数据接口,如果通过调用API采集 阅读全文