摘要: 统计自然语言处理统计自然语言处理基础自然语言处理综论 阅读全文
posted @ 2014-06-24 14:27 logx 阅读(135) 评论(0) 推荐(0) 编辑
摘要: Java判断一个字符串是否有中文一般情况是利用Unicode编码(CJK统一汉字的编码区间:0x4e00–0x9fbb)的正则来做判断,但是其实这个区间来判断中文不是非常精确,因为有些中文的标点符号比如:,。等等是不能识别的。以下是比较完善的判断方法:CharUtil.javahttp://www.... 阅读全文
posted @ 2014-06-24 13:36 logx 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 以前写过一篇贴子是写中文在unicode中的编码范围 unicode中文范围,但写的不是很详细,今天再次研究了下unicode,并给出详细的unicode取值范围。本次研究的unicode对象是unicode 5.2.0版本。现在最新的是6.0版对于这次研究的unicode把编码分为以下几个平面(英... 阅读全文
posted @ 2014-06-24 13:33 logx 阅读(2111) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下:1234finalWebClient webClient=newWebClient();finalHtmlPage page=webClient.getPage("... 阅读全文
posted @ 2014-06-20 19:47 logx 阅读(48641) 评论(3) 推荐(0) 编辑
摘要: tomcat 的 server.html 配置文件加在之上path虚拟目录docBase实际目录http://localhost:8080/itcast/1.html 阅读全文
posted @ 2014-05-29 18:50 logx 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 1 import java.io.FileInputStream; 2 import java.io.OutputStream; 3 import java.net.ServerSocket; 4 import java.net.Socket; 5 6 public class Server {... 阅读全文
posted @ 2014-05-29 17:59 logx 阅读(215) 评论(0) 推荐(0) 编辑
摘要: dir :列出当前目录下的文件及文件夹md :插件目录rd :删除目录cd :进入指定目录cd.. :退回到上一级目录cd/ :退回到根目录del :删除文件exit :退出dos命令行 阅读全文
posted @ 2014-05-27 18:41 logx 阅读(158) 评论(0) 推荐(0) 编辑
摘要: Unrecognized Windows Sockets error: 0: JVM_Bind【转帖】今天很是奇怪,在运行服务器端的时候,经常遇到这个异常:java.net.SocketException: Unrecognized Windows Sockets error: 0: JVM_Bin... 阅读全文
posted @ 2014-05-27 13:14 logx 阅读(6285) 评论(0) 推荐(0) 编辑
摘要: 1 import javax.swing.JFrame; 2 import javax.swing.JOptionPane; 3 4 public class Ch2Sample1 { 5 6 public static void main(String[] args) { 7... 阅读全文
posted @ 2014-05-25 13:13 logx 阅读(731) 评论(0) 推荐(0) 编辑
摘要: 本文来自:javaeye网站UTF8是国际编码,它的通用性比较好,外国人也可以浏览论坛GBK是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大~提示:如果您的网站客户群体主要是面向国内用户的,建议使用GBK版本,因为它可以节省空间,及相对utf-8版本来讲稳定一些。对于DZ论坛来说,... 阅读全文
posted @ 2014-05-25 11:45 logx 阅读(16941) 评论(1) 推荐(0) 编辑