摘要: 一、Elasticsearch中父子表上传 二、Elasticsearch中父子表查询 1、通过父表查询子表 2、通过子表查询父表 阅读全文
posted @ 2017-11-28 16:13 帆布鞋女孩儿 阅读(952) 评论(0) 推荐(0) 编辑
摘要: 一、正则表达式的基本语法 二、python中的re模块 阅读全文
posted @ 2017-11-28 16:10 帆布鞋女孩儿 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 一、清洗数据函数 1.清洗数据使用最多的函数之一应该是regexp 2.regexp主要是用来找到符合条件的数据,找到后会经常用到substringindex函数进行数据清洗 3.replace函数 4.concat拼接函数 二、时间函数 三、计算函数 1.分类后进行同类型之间数据的排序 (1)数据 阅读全文
posted @ 2017-11-28 16:06 帆布鞋女孩儿 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 本文以爬取智联招聘上数据分析师职位信息为例,介绍一下scrapy爬虫编写的一般流程。 阅读全文
posted @ 2017-11-28 16:02 帆布鞋女孩儿 阅读(379) 评论(0) 推荐(0) 编辑
摘要: 一、使用MySQL函数进行分割 二、使用正则表达式进行分割 阅读全文
posted @ 2017-11-28 15:57 帆布鞋女孩儿 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 最近爬虫爬来好多数据,清洗入库过程中遇到一些小磕磕绊绊,现总结一下。 一、JSON字符串格式的数据 1.首先解析json字符串,并提取出相应字段,但每个json文本的字段不一定全都有,提取字段值时会出现因找不到key值而报错,此时可以用python的三元表达式,解析提取代码如下: 2.将解析提取字段 阅读全文
posted @ 2017-11-28 15:23 帆布鞋女孩儿 阅读(434) 评论(0) 推荐(0) 编辑