上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 41 下一页
  2013年5月28日
摘要: 需求:从格式化数据中抽取html网页,并抽取网页中的全部汉字内容。需要的开源库 inconv boost数据格式如下:两个^\r\n锁定头部,之后是html网页。 其中第一个头部Store-Size部分保存网页的字节数。/*===============================================================* Copyright (C) 2013 All rights reserved.* * 文件名称:ProcessWeiboCorpora.cpp* 创 建 者:刘禹 finallyly * 创建日期:2013年04月24日* ... 阅读全文
posted @ 2013-05-28 09:44 finallyly 阅读(489) 评论(0) 推荐(0) 编辑
  2013年5月27日
摘要: 正则表达式:在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。这些是正则表达式的定义。 由于起源于unix系统,因此很多语法规则一样的。但是随着逐渐发展,后来扩展出 阅读全文
posted @ 2013-05-27 11:21 finallyly 阅读(4755) 评论(0) 推荐(1) 编辑
  2013年5月25日
摘要: 第三方库一般会默认安装在/urs/local/lib中如果程序报错找不到第三方库, 那么需要在/etc/ld.so.conf 加入/usr/local/lib 同时 ldconfig /usr/local/lib 阅读全文
posted @ 2013-05-25 19:09 finallyly 阅读(561) 评论(0) 推荐(0) 编辑
  2013年5月23日
摘要: top - 22:29:19 up 251 days, 8:03, 10 users, load average: 3.04, 3.03, 2.77Tasks: 213 total, 4 running, 209 sleeping, 0 stopped, 0 zombieCpu(s): 36.9%us, 0.0%sy, 0.0%ni, 63.0%id, 0.1%wa, 0.0%hi, 0.0%si, 0.0%stMem: 10485760k total, 10414272k used, 71488k free, 18728k buffersSwap: 1048568k total, 10485 阅读全文
posted @ 2013-05-23 22:30 finallyly 阅读(296) 评论(0) 推荐(0) 编辑
摘要: ########################################################################## Copyright (C) 2013 All rights reserved.# # 文件名称:ProcessTradition.sh# 创 建 者:刘禹 finallyly # 创建日期:2013年05月23日# 描 述:## 备 注:###########################################################################!/bin/bash#... 阅读全文
posted @ 2013-05-23 22:26 finallyly 阅读(262) 评论(0) 推荐(0) 编辑
摘要: http://blog.21ic.com/user1/5397/archives/2008/54040.htmlbashrc与profile的区别要搞清bashrc与profile的区别,首先要弄明白什么是交互式shell和非交互式shell,什么是login shell 和non-login shell。交互式模式就是shell等待你的输入,并且执行你提交的命令。这种模式被称作交互式是因为shell与用户进行交互。这种模式也是大多数用户非常熟悉的:登录、执行一些命令、签退。当你签退后,shell也终止了。 shell也可以运行在另外一种模式:非交互式模式。在这种模式下,shell不与你进行交 阅读全文
posted @ 2013-05-23 22:24 finallyly 阅读(2004) 评论(0) 推荐(0) 编辑
摘要: 题记:一些应用中需要用到正则表达式,有的时候正则表达式中含有汉字。这时候就要用到支持unicode的正则,python是个不错的选择。但是如果代码是用C++写的,仅为了正则功能就system调用python得不偿失,而且会影响到效率。考虑到之前有在windows上成果调用boost正则的经历,所以想迁移到linux上,没有想到的是一波三折。最后成功。1. boost的安装:请参考http://blog.csdn.net/wcjy07220114/article/details/7088005重点摘录安装boost之前最好安装python-dev icu bzip2 机子上没有在安装现在可以安装 阅读全文
posted @ 2013-05-23 09:33 finallyly 阅读(3064) 评论(0) 推荐(0) 编辑
  2013年5月11日
摘要: http://blog.csdn.net/zhaoweikid/article/details/1642015 python对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下python对多种不同语言的处理。 有一点需要清楚的是,当python要做编码转换的时候,会借助于内部的编码,转换过程是这样的: 原有编码 -> 内部编码 -> 目的编码 python的内部是使用unicode来处理的,但是unicode的使用需要考虑的是它的编码格式有两种,一是UCS-2,它一共有65536个码位,另一种是UCS-4,它有2147483648g个码位。对于这两种格 阅读全文
posted @ 2013-05-11 13:52 finallyly 阅读(1070) 评论(0) 推荐(0) 编辑
  2013年5月10日
摘要: 转自:http://hi.baidu.com/okptqdwpfrbosuq/item/0fc063f8b65f0516d6ff8c03中文字符集编码Unicode ,gb2312 , cp936 ,GBK,GB18030转自: http://www.blog.edu.cn/user3/flyingcs/archives/2006/1418577.shtml 概要:UTF-8的一个特别的好处是它与ISO- 8859-1完全兼容,可以表示世界上所有的字符,汉字通常用3个字节来表示。GB2312的code page是CP20936。GBK的code page是CP936 。GB18030支持的字符 阅读全文
posted @ 2013-05-10 13:49 finallyly 阅读(39649) 评论(0) 推荐(2) 编辑
  2013年2月1日
摘要: 通过做小题目和开源C代码锻炼C编程能力;大算法,体系算法采用开源工具和脚本(python matlab)学习其原理;保护眼睛,适时休息。 阅读全文
posted @ 2013-02-01 11:10 finallyly 阅读(371) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 41 下一页