摘要: weka的默认字符集编码是Cp1252,所以如果你导入的数据中有中文字符,就会出现乱码的情况,所以需要修改weka的RunWeka.ini文件方法:将"fileEncoding=cp1252"替换成你的数据对应的字符集编码,比如utf-8,cp936(简体中文),cp950(繁体中文)。问题解决 阅读全文
posted @ 2012-03-16 16:44 林氏出品 阅读(1042) 评论(0) 推荐(0) 编辑
摘要: 去除标点符号:replaceAll("[\\pP‘’“”]","") 阅读全文
posted @ 2012-03-13 10:22 林氏出品 阅读(123) 评论(0) 推荐(0) 编辑
摘要: <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"><configuration> <properties> <property name="username" value="root 阅读全文
posted @ 2012-03-12 18:12 林氏出品 阅读(2492) 评论(0) 推荐(0) 编辑
摘要: windows下mysql命令:1.客户端连接MySQL数据库服务器(bin目录下执行):mysql -h 数据库服务器IP -u 用户名 -p 数据库名称eg登陆本地:D:\AppServ\MySQL\bin>mysql -h localhost -u root -p2.显示当前数据库服务器上所有的数据库:show databases;3.选中某个指定的数据库:use 数据库名称4.查询选定的数据库中存在的所有表:show tables(已经使用use命令指定了某个数据库)或者show tables from 数据库名称5.查看数据库中某个表结构:describe 表名6.导出某个数据 阅读全文
posted @ 2012-03-12 14:38 林氏出品 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 文本分类实验流程设计:1)下载搜狗语料 地址:http://www.sogou.com/labs/dl/c.html2)下载中科院分词系统(ictclas)包 地址:http://ictclas.org/ictclas_download.aspx3)对应每个分类选择部分搜狗语料作为训练集,使用ictclas包对该部分语料进行分词4)编码对分词结果进行预处理,处理结果为各个单词的出现频率,并对各个分类进行数据库建表5)剩下的搜狗语料作为测试集,重复步骤3~46)将训练集和测试集分别实例化,处理成arff文件7)编码调用weka的api对训练集和测试集进行文本分类8)根据结果得出对应结论 阅读全文
posted @ 2012-03-09 15:56 林氏出品 阅读(281) 评论(0) 推荐(0) 编辑