摘要:
在文本相似度判定中,作者将该算法用于文本聚类中,其核心思想通过比较两个文本向量中元素的相似度,即向量中所含的元素相似个数越多,则两个向量越相似,继而上述文本越相似。作者在短文本相似判定中采用了余弦相似度该算法来实现,本文借鉴数学集合取交集,借用现有组件来实现上述算法功能,继而减少工作量,也具备便捷性,也能取得较好的效果。 阅读全文
2015年10月25日
2015年10月18日
摘要:
针对实际应用中并发访问MySQL的场景,本文采用多线程对MySQL进行并发读取访问,其中以返回用户所需的数据并显示在终端为测试结束节点,即将数据从MySQL集群读取后存储于客户端本地内存中。测试过程如下:分别针对4种应用场景,从10、20、50、100个线程对MySQL展开测试。测试结果表明:对场景1)一般的并发访问能够满足需求;对于场景2)和3)响应时间在分钟级,分别处于1-3分钟和10分钟左右;对于场景4)则经常会抛出异常,并且以异常点为基准,其响应时间在30分钟左右。 阅读全文
2015年10月15日
摘要:
鉴于内存数据库访问速率快的特点,本文分别从单线程、多线程(并发访问)和多线程读/写混合访问角度对eXtremeDB数据库读写速率展开测试。需要指出的是,本文读取操作包含将数据读取后,并在控制台显示出来。测试结果表明:eXtremeDB在单一读/写访问时,速率大约在10w条/s,其速率是比较快的;同时相对单线程来说,多线程读或者写操作并发访问eXtremeDB,也并未衰减其性能,因此在一定程度上可以满足并发访问需求;另一方面,多线程读/写混合访问eXtremeDB时,单个线程写入速率大约在10w条/s,单个线程读取速率大约在4w条/s,此外,随着读/写线程个数的增加,其读写速率在整体上趋于稳定。 阅读全文
摘要:
针对文本相似判定,本文提供余弦相似度和SimHash两种算法,并根据实际项目遇到的一些问题,给出相应的解决方法。经过实际测试表明:余弦相似度算法适合于短文本,而SimHash算法适合于长文本,并且能应用于大数据环境中。 阅读全文
2015年9月29日
摘要:
鉴于最近在研究Hadoop编程时,为考虑编程的方便,在Windows本地编译源程序,然后直接访问Hadoop集群,这样给广大编程人员提供了极大的便利。在这个过程中积累了一些实际经验,并针对在该过程中(初级阶段)可能会遇到的问题,提供一些解决方案,希望对大家有所帮助。 阅读全文
2015年9月20日
摘要:
本文针对高并发的业务需求,为节省系统成本(减少服务器),对MySQL在固态硬盘本地,采用多线程对其并发访问,以期实现在单台机器上满足峰值10000条/s的速率。测试结果表明:该方案能够满足上述业务需求。需要指出,本文作者并不赞成该解决方案,希望对有类似需求的朋友有所帮助。 阅读全文
摘要:
本文针对高并发的业务需求,为节省系统的成本(减少服务器),对MySQL在固态硬盘上展开测试,以期在单台机器上满足峰值10000条/s的速率。测试结果表明:在固态硬盘本地访问MySQL数据库,可能满足该业务需求。需要指出,本文作者并不赞成该解决方案,希望对有类似需求的朋友有所帮助。 阅读全文
2015年9月19日
摘要:
本文针对高并发的数据访问需求,为节省系统部署成本(减少服务器),对开源数据库MySQL、PostgreSQL展开测试,以期在单台机器上能满足峰值10000条/s的业务需求。测试结果表明:在普通物理介质(机械硬盘)上,该需求很难满足。经过本次调研,希望对有类似需求的朋友有所帮助。 阅读全文
摘要:
基于规则的分类方法采用特定的分类规则,比较理性,符合行为认知;基于统计的分类方法依赖机器学习的经验,根据概率统计方法确定分类,能取得较好的分类效果。从整体上看,基于规则和统计的分类方法各有千秋,目前的主要研究方向为采用两者的结合,提高分类的精确度。 阅读全文