摘要:
Mybatis批量insert报错的解决办法 阅读全文
摘要:
过去两年,我的主要工作都在Hadoop这个技术栈中,而最近有幸接触到了Ceph。我觉得这是一件很幸运的事,让我有机会体验另一种大型分布式存储解决方案,可以对比出HDFS与Ceph这两种几乎完全不同的存储系统分别有哪些优缺点、适合哪些场景。 对于分布式存储,尤其是开源的分布式存储,站在一个SRE的角度 阅读全文
摘要:
一、内容介绍1、问题描述1)、问题一 CentOS 6.x 在格式化大于16TB的ext4分区时,会提示如下错误: mke2fs 1.41.12 (17-May-2010)mkfs.ext4: Size of device /dev/sda1 too big to be expressed in 3 阅读全文
摘要:
今天主要是来研究梅森旋转算法,它是用来产生伪随机数的,实际上产生伪随机数的方法有很多种,比如线性同余法, 平方取中法等等。但是这些方法产生的随机数质量往往不是很高,而今天介绍的梅森旋转算法可以产生高质量的伪随 机数,并且效率高效,弥补了传统伪随机数生成器的不足。梅森旋转算法的最长周期取自一个梅森素数 阅读全文
摘要:
说明:这里分三个系列介绍Twitter数据的非API抓取方法。 在一个老外的博看上看到的,想详细了解的可以自己去看原文。 这种方法可以采集基于关键字在twitter上搜索的结果推文,已经实现自动翻页功能。对于有账号的用户还可以采集起关注的好友列表和关注自己的好友列表。 1、Twitter数据抓取(一 阅读全文
摘要:
一、一万小时的来源 作家格拉德威尔在《异类》一书中指出:“人们眼中的天才之所以卓越非凡,并非天资超人一等,而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。“”他将此称为“一万小时定律”。要成为某个领域的专家,需要一万小时,按比例计算就是:如果每天工作八个小时,一周工作五天, 阅读全文
摘要:
自然语言处理 1. Java自然语言处理 LingPipe LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of 阅读全文
摘要:
学习一个东西首先要知道这个东西是什么,可以做什么,接着再了解这个东西有什么好处和优势,然后再学习他的工作原理。下面我们分别从这三点简单介绍一下bloom filter,以及和他的变种。 存储元素:用一个m位的数组和k个hash函数,对一个元素用k个hash函数映射出k个值(范围是(0~m-1),即数 阅读全文
摘要:
在实现网络爬虫的过程中,验证码的出现总是会阻碍爬虫的工作。本期介绍一种利用深度神经网络来实现的端到端的验证码识别方法。通过本方法,可以在不切割图片、不做模板匹配的情况下实现精度超过90%的识别结果。 本文分为两个部分,第一个部分介绍如何利用深度神经网络实现验证码的训练和识别,第二个部分介绍在实现过程 阅读全文