11 2019 档案
摘要:正确建模 开发人员在构建Cassandra数据库时犯的另一个主要错误是分区键的选择不佳。cassandra是分布式的。这意味着您需要有一种方法来跨节点分布数据。Cassandra通过散列每个表的主键(称为分区键)的一部分并将散列值token分配给集群中的特定节点来完成此操作。选择分区键时,请务必考虑
阅读全文
摘要:Cassandra 提供了三种集合类型,分别是Set,List,MapSet: 非重复集,存储了一组类型相同的不重复元素,当被查询时会返回排好序的结果,但是内部构成是无序的值,应该是在查询时对结果进行了排序。List: 列表,查询时会按照元素在list中的index顺序来返回结果,可以存储多个重复的
阅读全文
摘要:非规范化关系结构 第二部分我们讲了复合主键,这可以灵活的解决主从关系,也即是一对多关系,那么多对多关系呢?多对多关系的数据模型应该回答两个问题: 我跟着谁? 谁跟着我? 非规范化数据结构上面我们看到的第一个非规范化的例子,这是在多个地方存储相同数据的实践。在关系数据库模式中,非规范化通常是不受欢迎的
阅读全文
摘要:timeuuid类型 timeuuid具有唯一索引和日期时间的综合特性,可以与日期和时间函数联合使用,常用的关联函数: dateOf() now() minTimeuuid() and maxTimeuuid() toDate(timeuuid) toTimestamp(timeuuid) toUn
阅读全文
摘要:Cassandra的特点 横向可扩展性: Cassandra部署具有几乎无限的存储和处理数据的能力。当需要额外的容量时,可以简单地将更多的机器添加到集群中。当新机器加入集群时,Cassandra需要对现有数据进行重新平衡,以使扩展集群中的每个节点具有大致相等的份额。而且,Cassandra集群的性能
阅读全文
摘要:代码存档 https://gitee.com/475660/databand/tree/master/databand-etl-flume https://gitee.com/475660/databand/tree/master/databand-mock-log 数据源Source RPC异构流
阅读全文
摘要:第一次提交,没做什么特征工程,分数还不太理想 0.9157894736842105Accuracy : 0.9158AUC Score (Test): 0.932477 过程分析 from numpy import int64 from sklearn import metrics from skl
阅读全文