摘要:
Cassandra 提供了三种集合类型,分别是Set,List,MapSet: 非重复集,存储了一组类型相同的不重复元素,当被查询时会返回排好序的结果,但是内部构成是无序的值,应该是在查询时对结果进行了排序。List: 列表,查询时会按照元素在list中的index顺序来返回结果,可以存储多个重复的 阅读全文
摘要:
非规范化关系结构 第二部分我们讲了复合主键,这可以灵活的解决主从关系,也即是一对多关系,那么多对多关系呢?多对多关系的数据模型应该回答两个问题: 我跟着谁? 谁跟着我? 非规范化数据结构上面我们看到的第一个非规范化的例子,这是在多个地方存储相同数据的实践。在关系数据库模式中,非规范化通常是不受欢迎的 阅读全文
摘要:
timeuuid类型 timeuuid具有唯一索引和日期时间的综合特性,可以与日期和时间函数联合使用,常用的关联函数: dateOf() now() minTimeuuid() and maxTimeuuid() toDate(timeuuid) toTimestamp(timeuuid) toUn 阅读全文
摘要:
Cassandra的特点 横向可扩展性: Cassandra部署具有几乎无限的存储和处理数据的能力。当需要额外的容量时,可以简单地将更多的机器添加到集群中。当新机器加入集群时,Cassandra需要对现有数据进行重新平衡,以使扩展集群中的每个节点具有大致相等的份额。而且,Cassandra集群的性能 阅读全文
摘要:
代码存档 https://gitee.com/475660/databand/tree/master/databand-etl-flume https://gitee.com/475660/databand/tree/master/databand-mock-log 数据源Source RPC异构流 阅读全文
摘要:
第一次提交,没做什么特征工程,分数还不太理想 0.9157894736842105Accuracy : 0.9158AUC Score (Test): 0.932477 过程分析 from numpy import int64 from sklearn import metrics from skl 阅读全文
摘要:
总共有八个步骤: 1 规范化问题:Frame the Problem and Look at the Big Picture 2 获取数据:Get the Data 注意:尽可能自动化获取数据,这样您可以轻松获取最新的数据 3 探索数据:Explore the Data 名字 类型:分类,int / 阅读全文
摘要:
import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression from sklearn.preprocessing import PolynomialFeatures from sklearn.externals import joblib X_train = 阅读全文
摘要:
取2维特征,方便图形展示 阅读全文
摘要:
X为: 随着K的增加,纵轴呈下降趋势且最终趋于稳定,那么拐点肘部处的位置所对应的k 值,不妨认为是相对最佳的类聚数量值。 阅读全文