上一页 1 2 3 4 5 6 ··· 14 下一页
摘要: 简易配置log4j文件,可以进行有需要的修改 `log4j.rootCategory=INFO, CONSOLE ,LOGFILE log4j.logger.com.hedger=INFO log4j.appender.CONSOLE=org.apache.log4j.ConsoleAppender 阅读全文
posted @ 2020-07-29 10:46 Hedger_Lee 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 1.mybatis.xml配置文件头信息 <!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"> 2.mapper.xml配置 阅读全文
posted @ 2020-07-29 09:51 Hedger_Lee 阅读(783) 评论(1) 推荐(0) 编辑
摘要: Pandas-Series 导入pandas: import pandas as pd from pandas import Series,DataFrame import numpy as np Series Series是一种类似与一维数组的对象,由下面两个部分组成: values:一组数据(n 阅读全文
posted @ 2020-06-11 17:02 Hedger_Lee 阅读(166) 评论(0) 推荐(0) 编辑
摘要: numpy使用 数据分析:是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 使用工具:Numpy,Pandas,Matplotlib Numpy:是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 创建ndar 阅读全文
posted @ 2020-06-11 16:24 Hedger_Lee 阅读(160) 评论(0) 推荐(0) 编辑
摘要: hashlib模块 密文加密 MD5基本使用: import hashlib # 获取MD5对象 md5 = hashlib.md5() # 可以在获取MD5对象时加'盐',以更深程度的加密 # hashlib.md5("salt".encode("utf8")) # 要加密的内容 # update 阅读全文
posted @ 2020-06-10 20:33 Hedger_Lee 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 增量式爬虫 概念:监测网站数据更新的情况。 核心:去重!!! 主要有两种情况: 深度爬取类型 深度爬取类型的网站中需要对详情页的url进行记录和检测 记录:将爬取过的详情页的url进行记录保存 url存储到redis的set中 检测:如果对某一个详情页的url发起请求之前先要取记录表中进行查看,该u 阅读全文
posted @ 2020-06-10 20:25 Hedger_Lee 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 分布式爬虫 分布式概述 ​ 基于多台电脑组建一个分布式机群,然后让机群中的每一台电脑执行同一组程序,然后让它们对同一个网站的数据进行分布爬取 作用:提升爬虫数据的效率 实现:基于scrapy+redis的形式实现分布式,scrapy结合这scrapy-redis组件实现的分布式 原生scrapy无法 阅读全文
posted @ 2020-06-10 17:40 Hedger_Lee 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 基于CrawlSpider的全站数据爬取 CrawlSpider就是爬虫类中Spider的一个子类 使用流程 1.创建一个基于CrawlSpider的一个爬虫文件,命令: scrapy genspider -t crawl spiderName www.xxxx.com 2.构造链接提取器和规则解析 阅读全文
posted @ 2020-06-10 17:11 Hedger_Lee 阅读(227) 评论(1) 推荐(1) 编辑
摘要: redis五种数据类型以及其常用指令 启动相关 先启动服务端再启动客户端 启动服务端 redis-server 启动客户端 redis-cli(中文会乱码) redis-cli --raw(中文不会乱码) 停止客户端 redis-cli shutdown 查看端口 ps -ef|grep -i re 阅读全文
posted @ 2020-06-10 16:51 Hedger_Lee 阅读(153) 评论(0) 推荐(0) 编辑
摘要: scrapy中间件 scrapy中间有两种:爬虫中间件,下载中间件 爬虫中间件:处于引擎和爬虫spider之间 下载中间件:处于引擎和下载器之间 主要对下载中间件进行处理 下载中间件 作用:批量拦截请求和响应 拦截请求 UA伪装:将所有的请求尽可能多的设定成不同的请求载体身份标识 request.h 阅读全文
posted @ 2020-06-09 17:49 Hedger_Lee 阅读(324) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 14 下一页