摘要:
1、wstring string转换1)win32下wchar_t占2个字节,linux下wchar_t占4个字节。wchar_t的高字节应该存放在char数组的低字节。2)win下面有函数WideCharToMultiByte() 和 MultiByteToWideChar()3)linux类似的函数有:mbstowcs() wcstombs() wcstombs和mbstowcs使用:#include <locale.h>setlocale(LC_ALL, "");wcstombs(char * to,wchar_t * from,size_t _maxCo 阅读全文
摘要:
python dict按照key 排序:1、method 1.items = dict.items()items.sort()for key,value in items: print key, value # print key,dict[key]2、method 2.print key, dict[key] for key in sorted(dict.keys()) python dict按照value排序:method 1:把dictionary中的元素分离出来放到一个list中,对list排序,从而间接实现对dictionary的排序。这个“元素”可以是key,value或者it.. 阅读全文
摘要:
处理中文字符串遇到了繁体和简体中文的转换,python版:1、下载zh_wiki.py及langconvzh_wiki.py:https://github.com/skydark/nstools/blob/master/zhtools/zh_wiki.pylangconv.py:https://github.com/skydark/nstools/blob/master/zhtools/langconv.py2、# -*- coding:utf-8 -*- from langconv import *# 转换繁体到简体line = Converter('zh-hans').co 阅读全文
摘要:
因为工作用到了事务,对事务搜索了一些牛人的帖子,整理一部分如下:首先,mysql是否支持事务由存储引擎决定的,InnoDB存储引擎支持事务及行级锁。使用事务之前要首先确认存储引擎的类型,MyISAM不支持事务,用于只读程序提高性能。事务具有ACID:原子性、一致性、隔离性和持久性四种特性。事务支持四种不同的隔离级别,所谓隔离级别决定了一个session中的事务可能对另一个session的影响,并发session对数据库的操作,一个session中所见数据的一致性。四种不同的隔离级别:1)READ UNCOMMITED:最低级别的隔离,允许一个事务读取还没commit的数据,可以提高性能,但是会 阅读全文
摘要:
python处理utf8编码中文,需要在py文件的第一行加入:# -*- coding:utf-8 -*- 或者 #coding=utf-8打印字符串时,使用print str.encode('utf8');打印中文列表时,使用循环 for key in list:print key打印中文字典时,可以使用循环,也可以使用json: import json print json.dumps(dict, encoding='UTF-8', ensure_ascii=False) 阅读全文
摘要:
今天学习了同事总结的搜索相关性计算方法,整理如下: 相关性指搜索query和页面之间的相关程度,衡量的维度有:文本相关性、权威性、查询需求满足。其中权威性要求同等条件下选择更优质、权威的结果;需求满足侧重了搜索个性化,同一个搜索词有多种不同含义,搜索引擎应该能够分析出用户的意图和需求,然后返回适合的结果。 常用的文本相关性模型有TF*IDF模型,TF:term frequency IDF=log(D/DW)(D:文档个数,DW:关键字W出现的文档个数),同时,还需要考虑: 1)term出现的顺序和相对位置 2)页面级别的特征:主题分析、反链anchor分析、页面类型、页面质量、站点... 阅读全文
摘要:
详见:http://web.itivy.com/article-330-1.html1. 写博客建立自己的博客,并至少每月发布一篇文章。文章中要尽量有一些你真正的研究项目,这样会确保你看起来有些水平。2. 参与开源投身开源领域,发布自己的开源项目。别人可以通过你开放的源代码,来了解你的水平和方向。并试着在你的项目中,用最简单的方式来解决复杂的问题。3. 不要频繁跳槽,也不要举步不前4. 放眼未来,着手实际5. 写你自己的文档6. 简洁是灵魂7. 在公共场合演讲8. 成为现实主义者9. 擅于使用工具解决疑难杂症10. 保持谦虚这应该成为你的基本技能。你可能做了某一个工作,让你获得了Geek称号, 阅读全文
摘要:
今天学习了@左耳朵耗子 的博文《vim简明攻略》,学到很多没有接触过的命令,相信vim强大的命令行对程序员来说是相当实用和高效的。 整理一下自己的思路入下: 1、first stage: a:在光标处插入 x:删除光标所在字符 hjkl:代替光标键 2、second stage: o:在当期行后插入新行 O:在当前行前插入新行 cw:替换从光标所在位置到单词结尾的字符 0:到行头 $:到行尾 ^:到行头第一个非空白字符 g_:到行尾第一个非blank字符位置 :e path/to/file 打开一个文件 :saveas path/to/file 另存为 :bn :bp同时打开多个文件时... 阅读全文
摘要:
SVM支持向量机,作为一种分类方法,通过核函数将低维空间上线性不可分的样本映射到高维空间上线性可分的样本空间,通过核函数计算内积,得到一个线性分类器。 常用的核函数有多种,如线性核函数,多项式核函数,径向基核函数,Sigmoid核函数和复合核函数。libsvm用的是线性核函数,核函数的选取对分类器的性能有一定影响。 分类中的概念,如超平面(分类器构成的平面)、支撑向量、松弛向量、离散点、软间隔分类(加入松弛向量,可以容易离散点,容忍度可以通过参数调整)、硬间隔分类(没有松弛向量)、样本不均衡时会影响超平面的选择(欺负样本体积较小的类别,通过调整不同的松弛向量(可根据样本大小比例或体积比... 阅读全文
摘要:
听同学提到过git,我理解的是版本控制系统,类似于svn,今天google了一下两者的区别,大致了解了一些,整理如下:1、git是分布式的,而svn不是2、git没有一个全局版本号,而svn有 git对一个文件是可以同时保村多个版本?3、git的分支更加灵活,推荐在一个分支下完成实验开发测试,而svn对于比较重要的开发才会另开一个branch,分支控制严格4、git和svn存储数据的格式不同,类似于.git存储了版本库的信息要比svn多,git按元数据方式存储,而svn按文件存储5、git内容完整性由于svn,容灾性好~仅为mark之~ 阅读全文