morein2008

2018年7月28日

摘要： 1. loc是用标签(也就是行名和列名)来查找，标签默认是数字，但也可以通过index参数指定为字符型等其他的类型。格式是df.loc[行名，列名]，如果列标签没有给出，则默认为查找指定行标签的所有列。例如: 1.1 创建一个DataFrame，不指定各行的名称(或者说标签)，pandas会默认阅读全文

posted @ 2018-07-28 15:26 morein2008 阅读(545) 评论(0) 推荐(0) 编辑

2018年7月24日

sql join与笛卡尔积

摘要： https://blog.csdn.net/yang5726685/article/details/53538438 阅读全文

posted @ 2018-07-24 21:41 morein2008 阅读(487) 评论(0) 推荐(0) 编辑

2018年7月20日

neo4j-jdbc driver

摘要： https://github.com/neo4j-contrib/neo4j-jdbc/releases/tag/3.3.1 阅读全文

posted @ 2018-07-20 09:46 morein2008 阅读(728) 评论(0) 推荐(0) 编辑

2018年7月17日

python时间格式化、运行时长计算

摘要： 1.格式化： 2.运行时长：阅读全文

posted @ 2018-07-17 19:22 morein2008 阅读(588) 评论(0) 推荐(0) 编辑

pandas DataFrame 的横向纵向拼接组合

摘要： concat 与其说是连接，更准确的说是拼接。就是把两个表直接合在一起。于是有一个突出的问题，是横向拼接还是纵向拼接，所以concat 函数的关键参数是axis 。函数的具体参数是： objs 是需要拼接的对象集合，一般为列表或者字典 axis=0 是按照行拼接，拼接之后行数增加，列数也根据joi 阅读全文

posted @ 2018-07-17 15:05 morein2008 阅读(36989) 评论(0) 推荐(0) 编辑

2018年7月12日

unicode、encode、decode

摘要： 1.encode与decode:unicode经过encode -> utf-8，反过来为decode。爬虫读取网页内容和pandas读取csv时，会把读取到的文字内容转成unicode，当我们需要把这些文字内容写入到新的文件时，需要设置该文件的编码（该编码应该与网页或原来的编码相同，以便带来编码阅读全文

posted @ 2018-07-12 19:34 morein2008 阅读(483) 评论(0) 推荐(0) 编辑

pandas 小技巧

摘要： 1.找出某个字段包含某字符串的行： 2.字段值长度大于零的行：阅读全文

posted @ 2018-07-12 19:30 morein2008 阅读(167) 评论(0) 推荐(0) 编辑

excel操作数据实用技能

摘要：写代码写习惯了，在做数据预处理时也总是习惯性地用python、pandas来做处理，但其实有时候根本不需要写代码，用excel也能达到目的，甚至比写代码快很多，写代码要半天，excel只要几秒钟。下面是几个最近发现的实用技能和场景： 1.去掉某一个列的重复项：例如，删除address列中的重复项。阅读全文

posted @ 2018-07-12 10:28 morein2008 阅读(159) 评论(0) 推荐(0) 编辑

2018年7月10日

用pandas处理数据遇到的坑

摘要： 1.使用pandas.read_csv(filePath)方法来读取csv文件时，可能会出现这种错误：ParserError：Error tokenizing data.C error:Expected 2 fields in line 407,saw 3.这句话的意思是，在csv文件的第407行数阅读全文

posted @ 2018-07-10 17:09 morein2008 阅读(4394) 评论(0) 推荐(0) 编辑

2018年7月8日

Python读写xml

摘要： python对XML的解析常见的XML编程接口有DOM和SAX，这两种接口处理XML文件的方式不同，当然使用场合也不同。 python有三种方法解析XML，SAX，DOM，以及ElementTree: 1.SAX (simple API for XML ) python 标准库包含SAX解析器，S 阅读全文

posted @ 2018-07-08 17:56 morein2008 阅读(421) 评论(0) 推荐(0) 编辑

公告