2018 年 5月 17 日随笔档案 - 前路~

2018年5月17日

摘要：用FromRequest模拟登陆知乎网站实例默认登陆成功以后的请求都会带上cookie # -*- coding: utf-8 -*- import re import json import datetime try: import urlparse as parse except: from 阅读全文

posted @ 2018-05-17 21:22 前路~ 阅读(698) 评论(0) 推荐(0) 编辑

Requests模拟登陆

摘要： requests模拟登陆知乎网站实例 # -*- coding: utf-8 -*- __author__ = 'CQ' import requests try: import cookielib except: import http.cookiejar as cookielib import 阅读全文

posted @ 2018-05-17 21:20 前路~ 阅读(212) 评论(0) 推荐(0) 编辑

Scrapy学习-8-ItemLoader

摘要： ItemLoader使用作用方便管理维护重用xpath或css规则实例 itemloader+图片处理 # items.py import scrapy from scrapy.loader.processors import MapCompose, Join, TakeFirst from 阅读全文

posted @ 2018-05-17 21:18 前路~ 阅读(247) 评论(0) 推荐(0) 编辑

Scrapy学习-7-数据存储至数据库

摘要：使用MySQL数据库存储安装mysql模块包 pip install mysqlclient 相关库文件 sudo apt-get install libmysqlclient-devel sudo apt-get install python-devel mysql-devel 阻塞型的数据写入阅读全文

posted @ 2018-05-17 21:16 前路~ 阅读(180) 评论(0) 推荐(0) 编辑

Scrapy学习-6-JSON数据处理

摘要：使用json模块处理JSON数据 class JsonwithEncodingPipeline(object): def __init__(self): self.file = codecs.open('article.json', 'w', encoding='utf-8') def proces 阅读全文

posted @ 2018-05-17 21:13 前路~ 阅读(336) 评论(0) 推荐(0) 编辑

Scrapy学习-5-下载图片实例

摘要： 1. 在项目下创建一个images文件用于存放图片 2. 载图片相关模块 1 pip install pillow 3.修改配置文件，激活pipelines ITEM_PIPELINES = { 'ArticleSpider.pipelines.ArticlespiderPipeline': 300 阅读全文

posted @ 2018-05-17 21:11 前路~ 阅读(146) 评论(0) 推荐(0) 编辑

Scrapy学习-4-Items类&Pipelines类

摘要： items类使用作用能使得我们非常方便的操作字段名在items.py中定制我们的类 class ArticleItem(scrapy.Item): title = scrapy.Field() create_time = scrapy.Field() url = scrapy.Field() 阅读全文

posted @ 2018-05-17 21:06 前路~ 阅读(196) 评论(0) 推荐(0) 编辑

Scrapy学习-3-Request回调巧用

摘要：基于twisted的异步回调使得页面爬取有阶段性和连续性阅读全文

posted @ 2018-05-17 21:00 前路~ 阅读(315) 评论(0) 推荐(0) 编辑

Scrapy学习-2-xpath&css使用

摘要： xpath使用简介 xpath使用路径表达式在xml和html中进行导航语法 body # 选取所有body元素的所有子节点 /html # 选取根元素 body/a # 选取所有属于body的子元素的a元素 //div # 选取所有dic子元素（任意地方） body//div # 选取所有属于阅读全文

posted @ 2018-05-17 20:58 前路~ 阅读(343) 评论(0) 推荐(1) 编辑

Scrapy学习-1-入门

摘要：基础知识爬虫发展史爬虫去重 1. 存储到数据库中存取速度慢 2. 存储到内存中的集合里，内存占用十分大当爬取数据有1亿条时 1*10**8*2Byte*50str_len/1024/1024/1024 = 9 结果显示仅仅爬取1亿条url数据就占用了9个G的内存，显然是不合适的 3. 将ur 阅读全文

posted @ 2018-05-17 20:50 前路~ 阅读(281) 评论(0) 推荐(0) 编辑

陈乾

公告