摘要: 1.搭建虚拟环境 virtualenv shopenv pip install django==1.11 2.创建工程和应用 django-admin startproject myshop cd myshop django-admin startapp shop 3.编写setting.py配置项 阅读全文
posted @ 2018-03-12 19:10 氢气球很漂亮 阅读(1018) 评论(0) 推荐(0) 编辑
摘要: 使⽤FormRequest.from_response()⽅法模拟⽤户登录 通常⽹站通过 实现对某些表单字段(如数据或是登录界⾯中的认证令牌等)的预填充。使⽤Scrapy 抓取⽹⻚时,如果想要预填充或重写像⽤户名、⽤户密码这 些表单字段, 可以使⽤ FormRequest.from_response 阅读全文
posted @ 2018-03-07 11:53 氢气球很漂亮 阅读(109) 评论(0) 推荐(0) 编辑
摘要: Scrapy 提供了 log 功能,可以通过 logging 模块使⽤。可以修改配置⽂件 settings.py,任意位置添加下⾯两⾏,效果会清爽很多。LOG_FILE = "TencentSpider.log"LOG_LEVEL = "INFO"Log levelsScrapy 提供 5 层 lo 阅读全文
posted @ 2018-03-07 11:52 氢气球很漂亮 阅读(120) 评论(0) 推荐(0) 编辑
摘要: CrawlSpiders是 Spider 的派⽣类,Spider 类的设计原则是只爬取 start_url 列表中的⽹页,⽽CrawlSpider 类定义了⼀些规则(rule)来提供跟进 link 的⽅便的机制(可以爬取下一页或跟进页面中其他的url),从爬取 的⽹⻚中获取 link 并继续爬取的⼯ 阅读全文
posted @ 2018-03-07 11:27 氢气球很漂亮 阅读(108) 评论(1) 推荐(0) 编辑
摘要: 一.创建爬虫工程 二.创建爬虫 三.明确需要爬取的内容(各种存储,方便可持续化用) 1.打开MySpider目录下的item.py 2.Item定义结构化数据,用来保存爬取到的数据,类似字典 3.创建TencentItem类 四.设置爬虫初始url,解析数据获取想要的内容和生成爬虫过程中另外生成的u 阅读全文
posted @ 2018-03-06 16:08 氢气球很漂亮 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 1. 在类模型中添加get_absolute_url() 2.另外一种方式为一个模型(model)指定一个URL是为你的项目添加ABSOLUTE_URL_OVERRIDES设置(如果是内置模型,该方式十分管用)。 3.Django会为所有出现在ABSOLUTE_URL_OVERRIDES设置中的模型 阅读全文
posted @ 2018-03-05 16:20 氢气球很漂亮 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 一.业务需求 类似博客的项目,应该是有关注功能的,一个用户可以关注多个用户,也可以被多个用户关注,我们需要在这种关系上添加一个额外的字段表示用户关注用户的时间,这时候可以用到Django的中介模型. 正常情况下,我们可以在多对多模型的一段使用ManyToManyField字段来创建关系,用throu 阅读全文
posted @ 2018-03-05 15:50 氢气球很漂亮 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 需求 每天请求一封邮件,并读取该邮件 这个其实可以使用linux 自带了crontab实现,但是毕竟是django 开发。想着不知道有没有方法可以从django 中实现。 简单搜索了下,这方面的方法确实不少。 由于看到celery 插件学习曲线较大,这个小的需求就使用django-crontab 解 阅读全文
posted @ 2018-03-05 14:58 氢气球很漂亮 阅读(629) 评论(0) 推荐(0) 编辑
摘要: 一."5+2"结构 SPIDERS(入口,需要用户编写):1.提供最初始的访问链接 2.解析Downloader返回的响应,返回想要的内容和额外的爬取请求 Spider Midderware: ITEM PIPELINES:(出口,用户编写):清理,检验和查看,存储数据 DOWNLOADER:(已有 阅读全文
posted @ 2018-03-04 15:59 氢气球很漂亮 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 一.环境搭建 1.创建虚拟环境 virtualenv blogenv 2.安装django1.11 pip install django==1.11 3.新建工程 django-admin startproject myblog 4.创建工程下的应用(进入工程目录下) django-admin st 阅读全文
posted @ 2018-03-03 13:23 氢气球很漂亮 阅读(142) 评论(0) 推荐(0) 编辑