摘要: 大数据目前的主要趋势(自己理解) 文件系统、部署、各种流和开源工具 ETL开发(BI项目) 数据统计分析 数据挖掘、机器学习 图片来自 浅析 一、关于kakfa kafka相关 Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越 阅读全文
posted @ 2018-10-17 18:08 shizhenqiang 阅读(450) 评论(0) 推荐(0) 编辑
摘要: 一、列表问题 二、函数传参 要明白哪些是可变类型:list(可变) https://www.cnblogs.com/blackmatrix/p/5614086.html 可变类型:列表,字典 不可变类型:数字,字符串,元组 这里的可变不可变,是指存储空间内的内容是否可以被改变 阅读全文
posted @ 2018-08-04 10:21 shizhenqiang 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 一、什么是hadoop hadoop是一个开源的分布式计算和存储的框架。 二、什么是mapreduce? 从总体上来讲,MapReduce主要包括三个阶段,map阶段, shuffle阶段, reduce阶段,如果大家对我前面讲的HDFS还有印象,应该能知道split这个过程,其实是HDFS帮我们做 阅读全文
posted @ 2018-07-08 16:51 shizhenqiang 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。 分类和回归的区别在于输出变量的类型。 定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。 举个例子:预测明天的气温是多少度,这是一个回归任务; 分类和 阅读全文
posted @ 2018-01-31 19:08 shizhenqiang 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 1 clf = tree.DecisionTreeClassifier() 2 3 ''' 4 5 GridSearchCV search the best params 6 ''' 7 pipeline = Pipeline([('tree', clf), ("svm", svm)]) 8 9 1 阅读全文
posted @ 2018-01-15 09:41 shizhenqiang 阅读(1094) 评论(0) 推荐(0) 编辑
摘要: 接上博客问题http://www.cnblogs.com/shizhenqiang/p/8274806.html 阅读全文
posted @ 2018-01-12 15:27 shizhenqiang 阅读(3007) 评论(0) 推荐(0) 编辑
摘要: pulp http://pythonhosted.org/PuLP/main/basic_python_coding.html 供水问题 1问题 供水公司有三个水库分别为A,B,C向四个小区甲乙丙丁供水,A和B向所有小区供水,C仅向甲乙丙供水,水库最大供水量(千吨) 水库 A B C 最大供水量(千 阅读全文
posted @ 2018-01-12 11:17 shizhenqiang 阅读(12124) 评论(1) 推荐(0) 编辑
摘要: 看了很多博客,关于关联规则的介绍想做一个详细的汇总: 一、概念 表1 某超市的交易数据库 交易号TID 顾客购买的商品 交易号TID 顾客购买的商品 T1 bread, cream, milk, tea T6 bread, tea T2 bread, cream, milk T7 beer, mil 阅读全文
posted @ 2018-01-09 14:16 shizhenqiang 阅读(14834) 评论(0) 推荐(0) 编辑
摘要: 输出:也就是想计算第一行中,list里面最长的list的长度是多少。 test_aa.xlsx如下: 有没有更好的方式,希望可以帮助到我。 阅读全文
posted @ 2018-01-08 16:32 shizhenqiang 阅读(1461) 评论(0) 推荐(0) 编辑
摘要: 数据地址:http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data 保存后注意填写表头 阅读全文
posted @ 2018-01-05 15:47 shizhenqiang 阅读(4614) 评论(0) 推荐(0) 编辑