摘要:
代码引用自:https://blog.csdn.net/antony9118/article/details/54317637 感谢博主分享: import java.util.ArrayList; import java.util.Collections; import java.util.Com 阅读全文
摘要:
启动优化 配置服务器open file的最大数量(使用ulimit -a 查看) 配置启动内存,修改bin/elasticsearch 文件,增加 ES_HEAP_SIZE=4g(最大不可超过32G) 配置 禁止物理内存交换 config/elasticsearch.yml bootstrap.me 阅读全文
摘要:
TRIE树的java实现(又称单词查找树,查询效率比哈希树高) 使用 阅读全文
摘要:
对于大数据统计工作,在人对结果不能准确校验的时候就容易造成这样一个现象:统计结果是错误的,或者存在较大的误差,但是人可能感知不到,并将这个结果作为它用,造成一定的错误影响。 那么如何确保统计结果的正确呢? 比如,对于同一个统计结果,通过不同的途径进行统计。就类似于一道题 采用不同的解法,如果得到相同 阅读全文
摘要:
特征决定了最优效果的上限,算法与模型只是让效果更逼近这个上限,所以特征工程与选择什么样的特征很重要! 以下是一些特征筛选与降维技巧 # -*- coding:utf-8 -*- import scipy as sc import libsvm_file_process as data_process 阅读全文
摘要:
以下三种方式 对于需要循环多次调用方法的,可以使用缓存,需要注意的是,缓存不能直接加在yiled函数上 阅读全文
摘要:
调整partition数量,每次reduece和distict的时候都应该调整,数量太大和太小都不好,通常来讲保证一个partition的大小在1~2G左右为宜 调整excutors 调整core 调整内存 使用cache (但是在内存不够的情况下,最好不要用,可能会频繁GC) 尽量减少shuffl 阅读全文
摘要:
1、tile 元素重复函数 第二个参数是一维 第二个参数是二维 第二个参数是三维 2、expand_dims 元素增加维度 3、求accuracy precision recall 4、不使用科学计数法 阅读全文
摘要:
部分情况下: 大坑, 和 package com.xiaomi.mishell.statusbar import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Put import o 阅读全文
摘要:
创建elasticsearch用户! 更改文件夹权限 chown -R elasticsearch ./elasticsearch-2.4.0 修改访问端口: elasticsearch.yml -> network.host改为本机IP 阅读全文