johnny_HITWH - 博客园

2013年12月28日

摘要： IPC待整理共享内存～～～～进程与线程关于锁阅读全文

posted @ 2013-12-28 20:07 johnny_HITWH 阅读(144) 评论(0) 推荐(0) 编辑

摘要：区分几个概念：1.内存页大小：见下面2.文件系统块大小：设备块（扇区）的整数倍，OS将磁盘按照这个大小划分4.数据库页大小：pagesize的整数倍，实现结构化数据的按块操作(文件系统如何实现按块操作？)，另外数据库应该单独实现缓存，因为OS缓存按页或块管理5.sector(扇区)和block(块/簇)：block是操作系统可以操作的最小单位，是对磁盘逻辑的划分，扇区的整数倍，一个文件(node)包括多个blockblocksize和pagesize大小关系：sector是设备驱动可以访问的最小单位，磁盘每次读取一个扇区区分页和块同样对于大文件使用较大的块和页会获取较好的性能说明：块的大小在文阅读全文

posted @ 2013-12-28 16:15 johnny_HITWH 阅读(1516) 评论(0) 推荐(0) 编辑

关于文本文件和二进制文件

摘要：在windows下，读写文件时需要将0xoa 转为0xod0xoa(换行转为回车换行),需要逐个字节比对在linux下不存在这种情况，因此节省了时间。本质上这两种文件的区别在于编码方式的区别，前者是ASCII码或者UTF-8，后者则是数字编码（想想大端小端，多字节），但对于操作系统都视为字节流进行处理。多字节情况：文本的多字节编码由解码程序识别，数字多字节编码则由相应指令和cpu处理。疑问：char可不可以输入汉字阅读全文

posted @ 2013-12-28 12:01 johnny_HITWH 阅读(213) 评论(0) 推荐(0) 编辑

2013年12月25日

整理相似度的一些算法

摘要： minHash好像不应该放这里，判断文档的相似性，分类也有问题，应该按照相似度算法划分到一起局部敏感哈希Locality Sensitive Hash一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构，诸如KD-Tree、SR-Tree相比，它较好地克服了Curse of Dimension，能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体（图像、音频）的相似性判断。LSH是一种概率方法，采用过滤一验证的框架(Filter一and一Refine framework)。在过滤阶段，LSH利用哈希技术把非相似、不可能成为结果的数据对象过滤掉，过滤之后的阅读全文

posted @ 2013-12-25 21:40 johnny_HITWH 阅读(563) 评论(0) 推荐(0) 编辑

待整理

摘要： power-low 标准正态分布阅读全文

posted @ 2013-12-25 21:34 johnny_HITWH 阅读(123) 评论(0) 推荐(0) 编辑

缓存服务器

摘要：百度百科：http://baike.baidu.com/link?url=D0ahvv_A-NzyhxXHbcIY_DCq66cG7QtkYndzVz5_EomdlKQoykTKQmcA7FyeNgbe6YNhN9-DVTo7O_daKTSoTq这个博客有关于服务器负载方面的文章阅读全文

posted @ 2013-12-25 21:24 johnny_HITWH 阅读(138) 评论(0) 推荐(0) 编辑

2013年12月24日

Consistent Hashing算法-搜索/负载均衡

摘要：在做服务器负载均衡时候可供选择的负载均衡的算法有很多，包括：轮循算法（Round Robin）、哈希算法（HASH）、最少连接算法（Least Connection）、响应速度算法（Response Time）、加权法（Weighted ）等。其中哈希算法是最为常用的算法. 典型的应用场景是：有N台服务器提供缓存服务，需要对服务器进行负载均衡，将请求平均分发到每台服务器上，每台机器负责1/N的服务。常用的算法是对hash结果取余数 (hash() modN)：对机器编号从0到N-1，按照自定义的 hash()算法，对每个请求的hash()值按N取模，得到余数i，然后将请求分发到编号为i的阅读全文

posted @ 2013-12-24 20:22 johnny_HITWH 阅读(622) 评论(0) 推荐(0) 编辑

MinHash算法-复杂度待整理

摘要： 1MinHash简介传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上相当于伪随机数产生算法。传统hash算法产生的两个签名，如果相等，说明原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差别极大。从这个意义上来说，要设计一个hash算法，对相似的内容产生的签名也相近，是更为艰难的任务，因为它的签名值除了提供原始内容是否相等的信息外，还能额外提供不相等的原始内容的差异程度的信息。MinHash[1]也是LSH的一种，可以用来快速估算两个集合的相似度。MinHash由Andrei Br 阅读全文

posted @ 2013-12-24 16:44 johnny_HITWH 阅读(635) 评论(0) 推荐(0) 编辑

搜索引擎spam

摘要：什么是SPAM？搜索引擎优化中的SPAM在搜索引擎优化相关的文章中中经常遇到“SPAM”一词，SPAM通常用来指垃圾邮件，不过在搜索引擎营销中所说的SPAM是专门针对那些欺骗搜索引擎的信息。搜索引擎垃圾技术是利用不道德的技巧去提高自己搜索引擎上的排名。不诚实的网站管理员就是利用这样的手段去欺骗搜索引擎从而获得较高的排名。这样的做法会让你的网站在短期内排名得到提高，但是后果却是十分严重的。有可能导致搜索引擎把你的网站从他的数据库里永久删除!以下是九个经常使用到的搜索引擎垃圾技术:1、隐藏文本：利用文本与背景色的相同来达到隐藏关键字的目的。这样，用户是看不到这样字，不影响用户的正常阅读，但是搜索引阅读全文

posted @ 2013-12-24 11:00 johnny_HITWH 阅读(295) 评论(0) 推荐(0) 编辑

2013年12月19日

C语言字节对齐

摘要：转自：http://blog.csdn.net/21aspnet/article/details/6729724文章最后本人做了一幅图，一看就明白了，这个问题网上讲的不少，但是都没有把问题说透。一、概念对齐跟数据在内存中的位置有关。如果一个变量的内存地址正好位于它长度的整数倍，他就被称做自然对齐。比如在32位cpu下，假设一个整型变量的地址为0x00000004，那它就是自然对齐的。二、为什么要字节对齐需要字节对齐的根本原因在于CPU访问数据的效率问题。假设上面整型变量的地址不是自然对齐，比如为0x00000002，则CPU如果取它的值的话需要访问两次内... 阅读全文

posted @ 2013-12-19 21:45 johnny_HITWH 阅读(195) 评论(0) 推荐(1) 编辑

会编程的卡卡西

多读写网站的专栏

公告