shizhenqiang - 博客园

2018年10月17日

摘要：大数据目前的主要趋势（自己理解）文件系统、部署、各种流和开源工具 ETL开发（BI项目）数据统计分析数据挖掘、机器学习图片来自浅析一、关于kakfa kafka相关 Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越阅读全文

posted @ 2018-10-17 18:08 shizhenqiang 阅读(476) 评论(0) 推荐(0)

2018年8月4日

python 不细心导致的error

摘要：一、列表问题二、函数传参要明白哪些是可变类型：list（可变） https://www.cnblogs.com/blackmatrix/p/5614086.html 可变类型：列表，字典不可变类型：数字，字符串，元组这里的可变不可变，是指存储空间内的内容是否可以被改变阅读全文

posted @ 2018-08-04 10:21 shizhenqiang 阅读(172) 评论(0) 推荐(0)

2018年7月8日

Hadoop 浅谈

摘要：一、什么是hadoop hadoop是一个开源的分布式计算和存储的框架。二、什么是mapreduce？从总体上来讲，MapReduce主要包括三个阶段，map阶段， shuffle阶段， reduce阶段，如果大家对我前面讲的HDFS还有印象，应该能知道split这个过程，其实是HDFS帮我们做阅读全文

posted @ 2018-07-08 16:51 shizhenqiang 阅读(203) 评论(0) 推荐(0)

2018年1月31日

机器学习上的一些容易混淆的概念

摘要：监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。分类和回归的区别在于输出变量的类型。定量输出称为回归，或者说是连续变量预测；定性输出称为分类，或者说是离散变量预测。举个例子：预测明天的气温是多少度，这是一个回归任务；分类和阅读全文

posted @ 2018-01-31 19:08 shizhenqiang 阅读(306) 评论(0) 推荐(0)

2018年1月15日

pipeline结合GridSearchCV的一点小介绍

摘要： 1 clf = tree.DecisionTreeClassifier() 2 3 ''' 4 5 GridSearchCV search the best params 6 ''' 7 pipeline = Pipeline([('tree', clf), ("svm", svm)]) 8 9 1 阅读全文

posted @ 2018-01-15 09:41 shizhenqiang 阅读(1124) 评论(0) 推荐(0)

2018年1月12日

scipy.optimize.minimize 解决实际问题

摘要：接上博客问题http://www.cnblogs.com/shizhenqiang/p/8274806.html 阅读全文

posted @ 2018-01-12 15:27 shizhenqiang 阅读(3056) 评论(0) 推荐(0)

python 之pulp 线性规划介绍及举例

摘要： pulp http://pythonhosted.org/PuLP/main/basic_python_coding.html 供水问题 1问题供水公司有三个水库分别为A,B,C向四个小区甲乙丙丁供水，A和B向所有小区供水，C仅向甲乙丙供水，水库最大供水量（千吨）水库 A B C 最大供水量（千阅读全文

posted @ 2018-01-12 11:17 shizhenqiang 阅读(12226) 评论(1) 推荐(0)

2018年1月9日

详细介绍关联规则Apriori算法及实现

摘要：看了很多博客，关于关联规则的介绍想做一个详细的汇总：一、概念表1 某超市的交易数据库交易号TID 顾客购买的商品交易号TID 顾客购买的商品 T1 bread, cream, milk, tea T6 bread, tea T2 bread, cream, milk T7 beer, mil 阅读全文

posted @ 2018-01-09 14:16 shizhenqiang 阅读(15026) 评论(0) 推荐(0)

2018年1月8日

两层嵌套list，选取list中最长的list的长度

摘要：输出：也就是想计算第一行中，list里面最长的list的长度是多少。 test_aa.xlsx如下：有没有更好的方式，希望可以帮助到我。阅读全文

posted @ 2018-01-08 16:32 shizhenqiang 阅读(1504) 评论(0) 推荐(0)

2018年1月5日

iris数据集决策树实现分类并画出决策树

摘要：数据地址：http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data 保存后注意填写表头阅读全文

posted @ 2018-01-05 15:47 shizhenqiang 阅读(4701) 评论(0) 推荐(0)

null

爱上一样东西，就不愿轻易放弃

公告