摘要: 上代码: 阅读全文
posted @ 2018-04-26 17:31 Jansora 阅读(9139) 评论(0) 推荐(1) 编辑
摘要: 初学者,再次记录一下。 确保Java 和 Hadoop已安装完毕(每个人的不一定一样,但肯定都有数据,仅供参考) [root@jans hadoop-2.9.0]# pwd /usr/local/hadoop-2.9.0 [root@jans hadoop-2.9.0]# echo $JAVA_HO 阅读全文
posted @ 2018-04-17 19:26 Jansora 阅读(408) 评论(0) 推荐(0) 编辑
摘要: 问题背景: Pandas.DataFrame 数据结构df在调用df.to_csv()方法生成csv文件格式的字符串(调用df.to_csv('test.csv')直接生成文件也有这个问题)作为字符串文件流提供HTTP文件下载后生成的test.csv文件用Office Excel打开乱码 解决方法: 阅读全文
posted @ 2018-01-24 18:20 Jansora 阅读(208) 评论(0) 推荐(0) 编辑
摘要: line_profiler:(代码性能分析) 使用方法:链接 codecs:(Python内置的编码库) 数据分析与挖掘领域: 引自博客:这里 因为他有很多这个领域相关的库可以用,而且很好用,比如Numpy、SciPy、Matploglib、Pandas、ScikitLearn、Keras、Gens 阅读全文
posted @ 2018-01-22 10:50 Jansora 阅读(706) 评论(0) 推荐(0) 编辑
摘要: 作者:sheenapunk链接:https://www.zhihu.com/question/32246256/answer/55467528来源:知乎 一个overfitted模型记住太多training data的细节从而降低了generalization的能力。 举个栗子,给机器一堆人类的照片 阅读全文
posted @ 2018-01-18 13:41 Jansora 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 参考官方文档链接: narray是Numpy的基本数据结构,本文主要分析对象的属性(可通过.进行访问) 1:导入numpy: 2:初始化narray对象: 3:查看np对象的行列sharp(np.shape)(返回两个元素元组,分别是行,列.): 4:查看np对象的内存布局(np.flags)(详情 阅读全文
posted @ 2018-01-16 15:06 Jansora 阅读(606) 评论(0) 推荐(0) 编辑
摘要: 操作Series和DataFrame中的数据的常用方法: 导入python库: 测试的数据结构: Series: DataFrame: 重新索引 reindex(): 创建一个适应新索引的新对象: 对于Series来说,只有列索引(数据标签): 调用该Series的reindex将会根据新索引进行重 阅读全文
posted @ 2017-12-27 09:11 Jansora 阅读(3853) 评论(0) 推荐(0) 编辑
摘要: 强大的库: 转自:微信公众号 Python最棒的地方之一,就是大量的第三方库,覆盖之广,令人惊叹。Python 库有一个缺陷就是默认会进行全局安装。为了使每个项目都有一个独立的环境,需要使用工具virtualenv,再用包管理工具pip和virtualenv配合工作。 尽管都可以求助于google或 阅读全文
posted @ 2017-12-26 15:50 Jansora 阅读(844) 评论(0) 推荐(0) 编辑
摘要: 参考书籍:《利用Python进行数据分析》 DataFrame简介: DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。跟其他类似的数据结构相 阅读全文
posted @ 2017-12-25 17:50 Jansora 阅读(11400) 评论(0) 推荐(0) 编辑
摘要: 1: commands 被 subprocess 所取代:举例 Python2中使用getoutput: Python3中使用getoutput: 2: Python2中的urllib被移植到Python3的urllib.request中:举例: Python2中使用urlopen: Python3 阅读全文
posted @ 2017-12-25 13:44 Jansora 阅读(372) 评论(0) 推荐(0) 编辑