2020年3月28日

kettle执行python脚本

摘要: kettle中立起架构 在kettle中新建一个作业,记得,shell脚本的对象,只在作业中有。因为你的python脚本本身也是要串行,而不是并行的。 填写路径 .py文件默认程序设置 shell脚本的原理是使用CMD来执行你指定的脚本文件,要使CMD执行时自动选择python.exe来打开你的文件 阅读全文

posted @ 2020-03-28 12:51 蛋挞王子 阅读(4211) 评论(0) 推荐(2) 编辑

2020年3月1日

用kettle做爬虫(一)get请求爬取日期

摘要: 背景 接到一个任务,是爬取广东省采购网2019年全年的采购公告、合同信息、结果公告等信息。通过python代码的编写已经完成了这个任务。但由于采购网的服务器不是太稳定等因素,因此,相当一部分的数据行没有爬取到“公布日期”。 幸好,我的数据行里面已经存有每个数据的网址来历,只要直接get,就能获取该网 阅读全文

posted @ 2020-03-01 09:38 蛋挞王子 阅读(2552) 评论(0) 推荐(0) 编辑

2020年2月27日

kettel路径配置

摘要: 背景 kettel 8.3 jdk13.0.1 jre1.8.0 配置 PENTAHO_JAVA_HOME:C:\Program Files (x86)\Java\jre1.8.0_241 JAVA_HOME:C:\Program Files\Java\jdk-13.0.1 kettel的penta 阅读全文

posted @ 2020-02-27 20:21 蛋挞王子 阅读(232) 评论(0) 推荐(0) 编辑

2019年10月28日

kaggle赛题Digit Recognizer:利用TensorFlow搭建神经网络(附上K邻近算法模型预测)

摘要: 一、前言 kaggle上有传统的手写数字识别mnist的赛题,通过分类算法,将图片数据进行识别。mnist数据集里面,包含了42000张手写数字0到9的图片,每张图片为28*28=784的像素,所以整个数据集的大小为(42000,784),加上标签值的一列。 二、模型选择 通过简单的数据观察,发现这 阅读全文

posted @ 2019-10-28 21:06 蛋挞王子 阅读(349) 评论(0) 推荐(0) 编辑

2019年3月29日

Python操作Excel(将父子级表头生成树状结构)

摘要: import re class Node: ''' 容器,用来存储前后节点信息 ''' __slot__=[] def __init__(self,val,next_,pre,name,no): self.val = val self.next = next_ self.pre = pre ... 阅读全文

posted @ 2019-03-29 09:52 蛋挞王子 阅读(1284) 评论(0) 推荐(0) 编辑

2019年3月21日

uipath接入Python

摘要: 安装UiPath.Python.Activities,然后会有五个.Activities,他们的功能分别如下: 本人原创,转发或引用请注明出处。 阅读全文

posted @ 2019-03-21 10:49 蛋挞王子 阅读(493) 评论(0) 推荐(1) 编辑

2019年3月13日

Python处理文件和查漏

摘要: import os,re def change_filename(root): ''' 批量修改excel文件名 ''' for root_,_, fs in os.walk(root): for f in fs: tail = f.upper().rspilt('.',1)[-1] if tail... 阅读全文

posted @ 2019-03-13 11:53 蛋挞王子 阅读(141) 评论(0) 推荐(0) 编辑

2019年3月2日

数据可视化思路

摘要: 阅读全文

posted @ 2019-03-02 15:45 蛋挞王子 阅读(178) 评论(0) 推荐(0) 编辑

爬取及分析天猫商城冈本评论(二)数据处理

摘要: 前言 根据之前我写的 爬取及分析天猫商城冈本评论(一)数据获取 方法,爬取了冈本旗舰店的所有避孕套产品的公开评论,共计30824条。 这次对这3万多条评论去做数据分析前的预处理。 数据值处理 对于搜集到的评论数据,主要是针对三个字段去进行分析,就是“产品类型product_type”,“首次评论fi 阅读全文

posted @ 2019-03-02 12:23 蛋挞王子 阅读(299) 评论(0) 推荐(0) 编辑

2019年3月1日

Python批量复制迁移文件夹

摘要: 前言 Python可以利用shutil库进行对文件夹,文件的迁移。而在本次的实践当中,难点在于目标文件夹的名称和数据源文件夹的名称,需要利用 工作单位提供的中间数据去进行对比连接起来。 例如:目标源的文件夹叫做,“1.台协办”。而数据源的文件夹叫做“103_广东省台协办委员会”。而他们中间的数据叫“ 阅读全文

posted @ 2019-03-01 11:51 蛋挞王子 阅读(490) 评论(0) 推荐(0) 编辑

导航