2013 年 8月随笔档案 - 刀锋诚心

数据集成处理办法--生产者消费者模型处理

摘要：前几天遇到一个问题，自己处理了一下但是觉得还是不是能好吧，数据量大概是2百w左右吧，就是处理一类产品，实际需求是这样的：比如你要处理的产品信息会来自京东、当当、亚马逊、淘宝等等不同的站点，你需要自作自己的爬虫去爬取他们的数据，然后整合到自己的系统中去。这是遇到的问题是你在整合数据时会出现产品在不同的站点中都存在，整合数据会去掉重复的。产品可能是同一个，但是名称不同，整合的数据取什么名称。最开始是自己老老实实的写了这个完成了一切的工作，但是发现系统的瓶颈很快就到了，最开始使用的jdbc原始操作也就是开链接à使用链接à关闭链接，最好改成了c3p0，这样就好些了，但是任然还是跑的阅读全文

posted @ 2013-08-22 13:18 刀锋诚心阅读(1387) 评论(9) 推荐(4)

linux例行性工作调度学习（一）

摘要：Linux系统中有一种例行性工作（crontab）可以调度，是通过crontab和at来实现的。这两种工作调度：一种是例行性的，就是每隔一定的周期要来办的事项。一种是突发性的，就是这次做完以后就没有的那种。at：at是个可以处理仅执行一次就结束调度的命令，不过要执行at时，必须要有atd这个服务的支持才行。在某些新版的distributions中，atd可能默认并没有启动，那么at这个命令就会失效，不过我们CentOS默认是启动的。Crontab：crontab这个命令所设置的工作将会循环一直进行下去。可循环的时间为分钟、小时、每周、每月、每年等。Crontab除了可以使用命令执行外，也可编辑阅读全文

posted @ 2013-08-20 10:55 刀锋诚心阅读(458) 评论(0) 推荐(1)

MySQL+Sphinx实现全文搜索

摘要：最近在做一个搜索引擎，主要是对图书方面的对象级的搜索，首先来了解下Sphinx吧。它能够提高你的查询的速度，这个不是一般的快。Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL，PostgreSQL做全文搜索，他可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。 Sphinx特别为一些脚本语言设计搜索API接口，如：PHP、Python、Perl、Ruby等，同时为MySQL也设计了一个存储引擎插件。Sphinx单一索引最大可包含1亿条记录，在1千万条记录情况下的查询速度为毫秒级。Sphinx创建索引的速度为：创建100万条记录的索引只需 3～4分钟，创阅读全文

posted @ 2013-08-10 20:28 刀锋诚心阅读(12609) 评论(7) 推荐(5)