摘要: FROM: http://segmentfault.com/a/1190000000382873Python的并发处理能力臭名昭著。先撇开线程以及GIL方面的问题不说,我觉得多线程问题的根源不在技术上而在于理念。大部分关于Pyhon线程和多进程的资料虽然都很不错,但却过于细节。这些资料讲的都是虎头蛇尾,到了真正实际使用的部分却草草结束了。传统例子在DDGhttps://duckduckgo.com/搜索“Python threading tutorial”关键字,结果基本上却都是相同的类+队列的示例。标准线程多进程,生产者/消费者示例:这里是代码截图,如果用其他模式贴出大段代码会很不美观。文. 阅读全文
posted @ 2014-01-11 22:56 wmx3ng 阅读(336) 评论(0) 推荐(0) 编辑
摘要: FROM:http://my.oschina.net/012345678/blog/122355相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息。在html = urllib2.open(url).read() 时,打印到控制台始终出现乱码。一般的解决办法就是html.decode('utf-8').encode('gb2312'),不过这个即使用了,也没能解决我的问题这里有两个问题,第一个你要知道网页的编码格式是utf-8 第二你得确定你的系统是gb2312的,能不能主动获取网页的编码格式,并 阅读全文
posted @ 2013-12-30 09:22 wmx3ng 阅读(225) 评论(0) 推荐(0) 编辑
摘要: FROM:http://www.jb51.net/article/16104.htm在Python中,可以对String调用decode和encode方法来实现转码。比如,若要将某个String对象s从gbk内码转换为UTF-8,可以如下操作s.decode('gbk').encode('utf-8′)可是,在实际开发中,我发现,这种办法经常会出现异常:UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence 阅读全文
posted @ 2013-12-29 23:20 wmx3ng 阅读(884) 评论(0) 推荐(0) 编辑
摘要: FROM:http://blog.csdn.net/duck_genuine/article/details/17014991好久没写solr的文章了,刚好需要在公司作个分享,先总结一些先。引用请声明原文:http://blog.csdn.net/duck_genuine/article/details/17014991solrCloud分布式检索主要流程如下:搜索 video,“美女斗秀场” 取按相关度排序取得2条记录~过程是:从集群里得知:video—>两个分片信息所以请求被并行分发到两个分片搜索,各自取top2第一次返回返回:shard1返回:vid:score1, 0.5f2, 阅读全文
posted @ 2013-12-18 09:12 wmx3ng 阅读(195) 评论(0) 推荐(0) 编辑
摘要: FROM: http://blog.sina.com.cn/s/blog_97ef3ff4010190pe.html#bsh-75-306370781今天中午經過系統自帶的“檢查更新”軟件從Ubuntu 12.04升級到了12.10,升級完成後出現了Unity不顯示、屏幕左邊和頂端的任務欄無法顯示的問題,糾結了很久,想到了通過Ctrl+Alt+F1進入“終端”,然後在裏面執行“Unity --reset”來復位Unity的辦法,但是系統給出了錯誤提示。後來通過在桌面上新建一個文件夾,然後進入文件系統,在Usr——Bin中打開火狐瀏覽器的方法,上網搜索此問題的解決方案。因爲Ubuntu12.10 阅读全文
posted @ 2013-11-04 21:29 wmx3ng 阅读(242) 评论(0) 推荐(0) 编辑
摘要: FROM:http://www.cnitblog.com/Lily/archive/2013/01/03/6860.html 阅读全文
posted @ 2013-09-07 22:05 wmx3ng 阅读(131) 评论(0) 推荐(0) 编辑
摘要: FROM:http://ac.jobdu.com/problem.php?pid=1530题目描述:最长不重复子串就是从一个字符串中找到一个连续子串,该子串中任何两个字符都不能相同,且该子串的长度是最大的。输入:输入包含多个测试用例,每组测试用例输入一行由小写英文字符a,b,c...x,y,z组成的字符串,字符串的长度不大于10000。输出:对于每组测试用例,输出最大长度的不重复子串长度。样例输入:absdabbaabdffd样例输出:424来源:阿尔卡特2013年实习生招聘笔试题 1 #include 2 #include 3 int main() 4 { 5 char arr[10... 阅读全文
posted @ 2013-08-19 22:14 wmx3ng 阅读(373) 评论(0) 推荐(0) 编辑
摘要: FROM:http://www.importnew.com/5881.html-- 扫描加关注,微信号: importnew --原文链接:Cloudera翻译:ImportNew.com-Royce Wong译文链接:http://www.importnew.com/5881.htmlCloudera Impala包含很多令人惊喜的特性,但是其给人印象最深的应该是支持以多种格式分析HDFS和HBase中数据的能力,并且不需要ETL。此外,用户可以使用多个框架如mapreduce和impala来分析相同的数据。因此,Impala可以和mapreduce一起运行在相同的物理机器上,支持企业的关键 阅读全文
posted @ 2013-08-19 16:50 wmx3ng 阅读(762) 评论(0) 推荐(0) 编辑
摘要: FROM:http://blogread.cn/it/article/2455?f=wb大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。1.Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对 于原理来说很简单,位数组 阅读全文
posted @ 2013-08-19 16:48 wmx3ng 阅读(285) 评论(0) 推荐(0) 编辑
摘要: FROM: http://blog.csdn.net/theegao/article/details/8750239一、下载1. codeblocks-12.11-1.el6.x86_64.tar.bz2地址:http://www.codeblocks.org/downloads/262. wxWidgets-2.8.12.tar.gz地址:http://sourceforge.net/projects/wxwindows/files/2.8.12/ 二、解压wxWidgetstar -zxvf wxWidgets-2.8.12.tar.gz在/home/username/下新建一个文件夹,. 阅读全文
posted @ 2013-08-17 18:41 wmx3ng 阅读(1312) 评论(0) 推荐(0) 编辑