摘要: "kaggle地址" "github地址" 特点: 1. 离散特征 2. 离散特征二值化处理 数据概览 预览训练集 Dates Category Descript \ 0 2015 05 13 23:53:00 WARRANTS WARRANT ARREST 1 2015 05 13 23:53:0 阅读全文
posted @ 2016-08-19 14:45 lijingpeng 阅读(2089) 评论(0) 推荐(0) 编辑
摘要: 电影文本情感分类 "Github地址" "Kaggle地址" 这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯、逻辑回归等,这里挑战之一是文本内容的向量化,因此,我们首先尝试基于TF IDF的向量化方法,然后尝 阅读全文
posted @ 2016-08-19 14:44 lijingpeng 阅读(10989) 评论(1) 推荐(1) 编辑
摘要: 第一步:yuminstallfcitx 第二步:vim/etc/profile 加入以下:exportXMODIFIERS="@im=fcitx"exportQT_IM_MODULE=fcitxexportGTK_IM_MODULE=fcitx最后 在软件仓库里 输入 fcitx 并安装cloud-pinyin 和 pinyin补充:装了fcitx后卸载过一次 再装的时候出现错误:最后 yum remove fcitx* 再 yum install fcitx* 解决 阅读全文
posted @ 2013-02-27 09:34 lijingpeng 阅读(206) 评论(0) 推荐(0) 编辑
摘要: Fedora 17 x86_64QQ2012,首先下载QQ2012,地址:http://115.com/file/dpaarnre#qq2012.tar.gz 下载保存到/opt/目录下,然后解压注意:一定要放在opt目录中,不然最后还是要解压到/opt/,所以不如直接就把文件放在/opt/目录中![root@honwayopt]#pwd/opt[root@honwayopt]#tarxfqq2012.tar.gz开始安装[root@honwayopt]#cdqq2012/wineapp/qq/[root@honwayqq]#./install.shcopyfiles...[root@honw 阅读全文
posted @ 2013-02-26 20:28 lijingpeng 阅读(625) 评论(0) 推荐(0) 编辑
摘要: cd:变换目录 pwd:显示弼前目录 mkdir:建立一个新目录 rmdir:删除一个空目录 cp:复制目录或者文件 mv:移动文件或者目录 rm:删除文件或者目录 阅读全文
posted @ 2012-09-07 22:11 lijingpeng 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 在数据库中快速搜索数据,使用索引可以提高搜索速度,然而索引一般是建立在数字型或长度比较短的文本型字段上的,比如说编号、姓名等字段,如果建立在长度比较长的文本型字段上,更新索引将会花销很多的时间。如在文章内容字段里用lik e 语句搜索一个关键字,当数据表里的内容很多时,这个时间可能会让人难以忍受。在SQL Server 中提供了一种名为全文索引的技术,可以大大提高从长字符串里搜索的速度,在对大量的文本数据进行查询时,全文索引可以大大地提高查询的性能,如对于几百万条记录的文本数据进行lik e 查询可能要花几分钟才能返回结果,而使用全文索引则只要几秒钟甚至更少的时间就可以返回结果了。在本章里,将 阅读全文
posted @ 2012-04-29 18:55 lijingpeng 阅读(332) 评论(0) 推荐(0) 编辑
摘要: C#源码string SqlConString = "Data Source=(local);Initial Catalog=FTPData;Integrated Security=True";SqlConnection con = new SqlConnection(SqlConString);con.Open();SqlCommand cmd = new SqlCommand(CreateSQLQueryString(), con);SqlDataReader dr = cmd.ExecuteReader();RepeaterResult.DataSource = dr 阅读全文
posted @ 2012-04-29 18:31 lijingpeng 阅读(1355) 评论(0) 推荐(0) 编辑
摘要: str=Regex.Replace(str,LastResult[i],"<font color=Red>" + LastResult[i] + "</font>",RegexOptions.IgnoreCase); 阅读全文
posted @ 2012-04-29 18:23 lijingpeng 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 在实现中文分词的过程中,利用ASP.NET网站展示的时候会涉及到一个问题就是: 做网页端的时候,需要将分词词典预先载入内存,然后对用户的每一次查询都先进行分词处理,然后再提交数据库查询,这样能搜到更多的数据。 向内存中载入词典大约需要2秒钟的时间,在服务器一直运行的时间只需载入一次,public void LoadWordandHash()函数负责载入,肯定不能是每次查询都得载入。另外基于ASP.NET的网站的web服务器是IIS7。解决方法:利用Global.asax文件void Application_Start(object sender, EventArgs e) { ... 阅读全文
posted @ 2012-04-27 15:34 lijingpeng 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 在global.asax文件中: void Application_Start(object sender, EventArgs e) { //在应用程序启动时运行的代码 Application["StartTime"]=DateTime.Now; }在其他aspx文件中写入 protected void Page_Load(object sender, EventArgs e) { Response.Write("程序运行时间:" + Application["StartTime"]); Response.Wr... 阅读全文
posted @ 2012-04-27 15:00 lijingpeng 阅读(198) 评论(0) 推荐(0) 编辑