09 2018 档案

摘要:一. 微博模拟登陆 1. 百度搜微博开放平台可满足爬取量不大的情况 2. 微博模拟登陆和下拉鼠标应对ajax加载 from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https:// 阅读全文
posted @ 2018-09-28 15:33 坚强的小蚂蚁 阅读(1038) 评论(0) 推荐(0) 编辑
摘要:DOWNLOAD_DELAY: 同一网站下个页面下载延迟时间 一. 爬虫和反爬虫的斗争 小技巧: 1. 在网页中右键查看源码和用F12查看是有区别的 如果网页中大量使用ajax来加载数据,那么右键查看源码的方式只能看到ajax加载前的信息,F12看到的是ajax加载后的信息,我们一般用爬虫爬取的都是 阅读全文
posted @ 2018-09-28 15:30 坚强的小蚂蚁 阅读(227) 评论(0) 推荐(0) 编辑
摘要:对应github地址:知乎和拉钩 小技巧 1. cmder:模拟linux终端 2. 添加windows路径到pycharm环境中 import sys import os sys.path.insert(0, "E:\python_workshop\Article"),其中的0表示路径查找顺序 另 阅读全文
posted @ 2018-09-28 15:27 坚强的小蚂蚁 阅读(665) 评论(0) 推荐(0) 编辑
摘要:对应github地址:知乎和拉钩 摘要: 1. Scrapy的Request类支持设置cookie属性,要在爬虫请求中带上cookie,可以重载Spider的start_requests方法。start_requests()方法可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_url 阅读全文
posted @ 2018-09-28 15:25 坚强的小蚂蚁 阅读(616) 评论(0) 推荐(0) 编辑
摘要:github对应代码:伯乐在线文章爬取 一. 普通插入方法 1. 连接到我的阿里云,用户名是test1,然后在navicat中新建数据库 2. 修改爬虫文件中日期的类型为date类型,原先是string 3. 参照items.py在navicat中创建表 注意: 1)content类型是longte 阅读全文
posted @ 2018-09-14 14:08 坚强的小蚂蚁 阅读(445) 评论(0) 推荐(0) 编辑
摘要:一. 爬取http://blog.jobbole.com/all-posts/中的所有文章 1. 编写jobbole.py简单代码 import scrapy from scrapy.http import Request from urllib import parse class Jobbole 阅读全文
posted @ 2018-09-14 13:50 坚强的小蚂蚁 阅读(583) 评论(0) 推荐(0) 编辑
摘要:以伯乐在线文章为爬取目标blog.jobbole.com,发现在"最新文章"选项中可看到所有文章 一般来说,可以用scrapy中自带的xpath或者css来提取数据,定义在spiders/jobbole.py中的def parse(self, response) import scrapy clas 阅读全文
posted @ 2018-09-11 17:47 坚强的小蚂蚁 阅读(6677) 评论(0) 推荐(1) 编辑
摘要:视频地址 https://coding.imooc.com/learn/list/92.html 一. 基础知识回顾 1. 正则表达式 1)贪婪匹配,非贪婪匹配 .*? 非贪婪 .* 贪婪模式 2)中括号的三种用法: 1[34578][0-9]{9} 使用"-"表示区间,写多个值表示取任一个值 [^ 阅读全文
posted @ 2018-09-11 17:40 坚强的小蚂蚁 阅读(382) 评论(0) 推荐(0) 编辑
摘要:在线演示: http://47.244.22.82 python3+django2.0的环境 需要安装的库pip install django-simple-captcha django-pure-pagination Ueditor安装注册到github中搜索djangoueditor,发现一个l 阅读全文
posted @ 2018-09-07 10:25 坚强的小蚂蚁 阅读(790) 评论(0) 推荐(0) 编辑
摘要:对应github地址:第16天 一. 首页配置 1. courses/models.py -->class Course增加字段,迁移数据库 2. 配置view users/views.py中增加 3. 配置url,将原来的静态页面index配置修改为如下 4. index.html页面内容填充 4 阅读全文
posted @ 2018-09-07 10:24 坚强的小蚂蚁 阅读(613) 评论(0) 推荐(0) 编辑
摘要:对应github地址:第15天 一. 我的课程 1. 继承usercenter-base页面 2. 编写url, view 3. usercenter-mycourse.html中填充课程信息 需要注意的是课程链接标签<a href="{% url 'course:course_detail' us 阅读全文
posted @ 2018-09-05 14:42 坚强的小蚂蚁 阅读(468) 评论(0) 推荐(0) 编辑
摘要:对应github地址:第14天 一. 全局搜索 1. 使用关键词搜索 courses/views.py/CourseListView新增代码,不用把search_keywords传到前端 同样在organization/views.py/OrgView,拷贝上面代码,做简单修改 organizati 阅读全文
posted @ 2018-09-04 13:40 坚强的小蚂蚁 阅读(1159) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示