小茶馆

摘要：方式比较low，但是感觉挺方便的，自己记录下。 Python后端，所以集成开发环境用的是pycharm，以pycharm为基础操作。 1. 首先从远程把代码clone下来后，在本地存好。 2. 通过pycharm配置同步文件夹： 3. 然后确定，文件夹右键，... 阅读全文

posted @ 2018-03-28 22:56 小茶馆阅读(1172) 评论(0) 推荐(0)

摘要：在kaggle下载了一个train.csv,用于测试公司平台决策树算法，该数据有一个label标签和784个特征列，名字如pixel0,pixel1…….pixel783。具体操作如下(pyspark下):from pyspark.sql import Hi... 阅读全文

posted @ 2018-03-22 10:21 小茶馆阅读(944) 评论(0) 推荐(0)

摘要： 1. 将csv或Excel文件转换为文本，以逗号或者制表符都可以: xigua.txtid,color,root,stroke,venation,umbilical,touch,status1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,是2,乌黑,蜷缩,沉闷,清... 阅读全文

posted @ 2018-03-21 14:47 小茶馆阅读(2710) 评论(0) 推荐(0)

摘要：找到该文件，单机raw,如下图: 然后会在网页打开该文件，复制URL，下载即可(如果是不可预览文件，会自动下载)。阅读全文

posted @ 2018-03-20 11:30 小茶馆阅读(276) 评论(0) 推荐(0)

摘要： # 拷贝本地文件到远程scp sample_multiclass_classification_data.txt johnny@johnny:/home/johnny/storage# 拷贝本地文件到远程并重命名scp sample_multiclass_c... 阅读全文

posted @ 2018-03-20 11:23 小茶馆阅读(385) 评论(0) 推荐(0)

摘要： # 创建目录hadoop fs -mkdir /storage# 递归创建目录hadoop fs -mkdir /storage/johnny/data# 将服务器上的文件上传到hdfshadoop fs -put file_path hdfs_path ... 阅读全文

posted @ 2018-03-20 11:18 小茶馆阅读(656) 评论(0) 推荐(0)

摘要：自己遇到的问题，小记一下！# -*- coding: utf-8 -*-__author__ = 'Johnny'import reline = "baaaaacfbsbdada"reg_str = ".*(b.*b).*"match_str = re.ma... 阅读全文

posted @ 2018-03-19 23:07 小茶馆阅读(149) 评论(0) 推荐(0)

摘要：接上面两篇： UPDATE:下面两个链接是发布在简书的，感觉简书排版不好看，就迁移过来了。 python操作hdfs模块上传文件到HDFS python脚本—上传本机文件到远端(接上文) 由于与客户为未正式沟通，所以脚本再次发生变化，再次。。。（不能再客户机... 阅读全文

posted @ 2018-03-08 19:00 小茶馆阅读(442) 评论(0) 推荐(0)

摘要：上一个脚本刚写完，第二天不用了。。。需要传到linux服务器上。。。So,下一个脚本开始：1. 这次选择用的paramiko模块pip install paramiko2. 整体思路遍历本地目录放入集合读取上次上传到linux的文件信息（existsfile... 阅读全文

posted @ 2018-03-08 18:58 小茶馆阅读(793) 评论(0) 推荐(0)

摘要：因为公司需要，需要写一个脚本将Windows server上的部分日志文件同步到HDFS上，每天定时启动脚本上传。大体思路是，首先对比Windows server和HDFS上的是否一样，不一样就证明产生了新的日志文件，然后上传。折腾了一天才弄好。。。系统... 阅读全文

posted @ 2018-03-08 18:51 小茶馆阅读(4319) 评论(0) 推荐(0)