林氏出品

2012年3月16日

摘要： weka的默认字符集编码是Cp1252，所以如果你导入的数据中有中文字符，就会出现乱码的情况，所以需要修改weka的RunWeka.ini文件方法：将"fileEncoding=cp1252"替换成你的数据对应的字符集编码，比如utf-8，cp936（简体中文），cp950（繁体中文）。问题解决阅读全文

posted @ 2012-03-16 16:44 林氏出品阅读(1111) 评论(0) 推荐(0)

2012年3月13日

文本处理的一些笔记

摘要：去除标点符号：replaceAll("[\\pP‘’“”]","") 阅读全文

posted @ 2012-03-13 10:22 林氏出品阅读(126) 评论(0) 推荐(0)

2012年3月12日

MyBatis框架常见报错解决方案

摘要： <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"><configuration> <properties> <property name="username" value="root 阅读全文

posted @ 2012-03-12 18:12 林氏出品阅读(2509) 评论(0) 推荐(0)

mysql常用命令

摘要： windows下mysql命令：1.客户端连接MySQL数据库服务器（bin目录下执行）：mysql -h 数据库服务器IP -u 用户名 -p 数据库名称eg登陆本地：D:\AppServ\MySQL\bin>mysql -h localhost -u root -p2.显示当前数据库服务器上所有的数据库：show databases;3.选中某个指定的数据库:use 数据库名称4.查询选定的数据库中存在的所有表：show tables(已经使用use命令指定了某个数据库)或者show tables from 数据库名称5.查看数据库中某个表结构：describe 表名6.导出某个数据阅读全文

posted @ 2012-03-12 14:38 林氏出品阅读(176) 评论(0) 推荐(0)

2012年3月9日

毕业设计笔记（一）：文本分类

摘要：文本分类实验流程设计：1）下载搜狗语料地址：http://www.sogou.com/labs/dl/c.html2）下载中科院分词系统（ictclas）包地址：http://ictclas.org/ictclas_download.aspx3）对应每个分类选择部分搜狗语料作为训练集，使用ictclas包对该部分语料进行分词4）编码对分词结果进行预处理，处理结果为各个单词的出现频率，并对各个分类进行数据库建表5）剩下的搜狗语料作为测试集，重复步骤3~46）将训练集和测试集分别实例化，处理成arff文件7）编码调用weka的api对训练集和测试集进行文本分类8）根据结果得出对应结论阅读全文

posted @ 2012-03-09 15:56 林氏出品阅读(294) 评论(0) 推荐(0)

公告