随笔档案「2018年9月」 - 坚强的小蚂蚁

第八天，scrapy的几个小技巧

摘要：一. 微博模拟登陆 1. 百度搜微博开放平台可满足爬取量不大的情况 2. 微博模拟登陆和下拉鼠标应对ajax加载 from selenium import webdriver import time browser = webdriver.Chrome() browser.get('https:// 阅读全文

posted @ 2018-09-28 15:33 坚强的小蚂蚁阅读(1050) 评论(0) 推荐(0)

第七天，反爬

摘要：DOWNLOAD_DELAY: 同一网站下个页面下载延迟时间一. 爬虫和反爬虫的斗争小技巧： 1. 在网页中右键查看源码和用F12查看是有区别的如果网页中大量使用ajax来加载数据，那么右键查看源码的方式只能看到ajax加载前的信息，F12看到的是ajax加载后的信息，我们一般用爬虫爬取的都是阅读全文

posted @ 2018-09-28 15:30 坚强的小蚂蚁阅读(242) 评论(0) 推荐(0)

第六天，拉勾网整站爬取

摘要：对应github地址：知乎和拉钩小技巧 1. cmder：模拟linux终端 2. 添加windows路径到pycharm环境中 import sys import os sys.path.insert(0, "E:\python_workshop\Article")，其中的0表示路径查找顺序另阅读全文

posted @ 2018-09-28 15:27 坚强的小蚂蚁阅读(682) 评论(0) 推荐(0)

第五天，知乎问题和回答字段提取和存入数据库

摘要：对应github地址：知乎和拉钩摘要： 1. Scrapy的Request类支持设置cookie属性，要在爬虫请求中带上cookie，可以重载Spider的start_requests方法。start_requests()方法可以返回一个请求给爬虫的起始网站，这个返回的请求相当于start_url 阅读全文

posted @ 2018-09-28 15:25 坚强的小蚂蚁阅读(661) 评论(0) 推荐(0)

第四天，同步和异常数据存储到mysql，item loader方法

摘要：github对应代码：伯乐在线文章爬取一. 普通插入方法 1. 连接到我的阿里云，用户名是test1，然后在navicat中新建数据库 2. 修改爬虫文件中日期的类型为date类型，原先是string 3. 参照items.py在navicat中创建表注意： 1）content类型是longte 阅读全文

posted @ 2018-09-14 14:08 坚强的小蚂蚁阅读(464) 评论(0) 推荐(0)

第三天，爬取伯乐在线文章代码，编写items.py，保存数据到本地json文件中

摘要：一. 爬取http://blog.jobbole.com/all-posts/中的所有文章 1. 编写jobbole.py简单代码 import scrapy from scrapy.http import Request from urllib import parse class Jobbole 阅读全文

posted @ 2018-09-14 13:50 坚强的小蚂蚁阅读(616) 评论(0) 推荐(0)

scrapy实战2，使用内置的xpath，re和css提取值

摘要：以伯乐在线文章为爬取目标blog.jobbole.com，发现在"最新文章"选项中可看到所有文章一般来说，可以用scrapy中自带的xpath或者css来提取数据，定义在spiders/jobbole.py中的def parse(self, response) import scrapy clas 阅读全文

posted @ 2018-09-11 17:47 坚强的小蚂蚁阅读(6709) 评论(0) 推荐(1)

scrapy实战1，基础知识回顾和虚拟环境准备

摘要：视频地址 https://coding.imooc.com/learn/list/92.html 一. 基础知识回顾 1. 正则表达式 1）贪婪匹配，非贪婪匹配 .*? 非贪婪 .* 贪婪模式 2）中括号的三种用法： 1[34578][0-9]{9} 使用"-"表示区间，写多个值表示取任一个值 [^ 阅读全文

posted @ 2018-09-11 17:40 坚强的小蚂蚁阅读(392) 评论(0) 推荐(0)

mxonline实战17，上线部署

摘要：在线演示: http://47.244.22.82 python3+django2.0的环境需要安装的库pip install django-simple-captcha django-pure-pagination Ueditor安装注册到github中搜索djangoueditor，发现一个l 阅读全文

posted @ 2018-09-07 10:25 坚强的小蚂蚁阅读(803) 评论(0) 推荐(0)

mxonline实战16：首页配置和xadmin进阶，Ueditor

摘要：对应github地址：第16天一. 首页配置 1. courses/models.py -->class Course增加字段，迁移数据库 2. 配置view users/views.py中增加 3. 配置url，将原来的静态页面index配置修改为如下 4. index.html页面内容填充 4 阅读全文

posted @ 2018-09-07 10:24 坚强的小蚂蚁阅读(639) 评论(0) 推荐(0)

mxonline实战15，用户中心：我的课程, 我的收藏，我的消息，登出和点击数以及收藏数

摘要：对应github地址：第15天一. 我的课程 1. 继承usercenter-base页面 2. 编写url, view 3. usercenter-mycourse.html中填充课程信息需要注意的是课程链接标签<a href="{% url 'course:course_detail' us 阅读全文

posted @ 2018-09-05 14:42 坚强的小蚂蚁阅读(491) 评论(0) 推荐(0)

mxonline实战14，全局搜索，修改个人中心页面个人资料信息

摘要：对应github地址：第14天一. 全局搜索 1. 使用关键词搜索 courses/views.py/CourseListView新增代码，不用把search_keywords传到前端同样在organization/views.py/OrgView，拷贝上面代码，做简单修改 organizati 阅读全文

posted @ 2018-09-04 13:40 坚强的小蚂蚁阅读(1214) 评论(0) 推荐(0)

坚强的小蚂蚁

每天都要有收获

09 2018 档案

公告