摘要: 既然R语言的程序已经能运行了,那直接把唐诗的也统计一下。(有空还是用C++写一下,R非常简洁,但是判断不是很精确。)l = scan("tangshi.txt", "character", sep = "\n");l.len = nchar(l);# 某些行是作者和标题,所以选取长度大于10的行;# 另外这个文本文件不太规整,有些网址什么的,# 所以也要排除那些长度太长的。ci = l[l.len > 10 & l.len < 500];# 句子用标点符号分割。sentences = strsplit(ci, &q 阅读全文
posted @ 2011-12-03 22:59 好好学习,天天进步 阅读(863) 评论(0) 推荐(0) 编辑
摘要: http://yixuan.cos.name/cn/2011/03/text-mining-of-song-poems/看了宋词频率统计的例子,想用php实现一下,php的split中文让我崩溃了。。。php都5.3.8了,一个中文的问题还搞得这么烂。。。-----------------------------------------------------(add php源码)终于能workaround搞定中文的php<?php ini_set("memory_limit","1024M"); echo "start\n"; 阅读全文
posted @ 2011-12-03 22:22 好好学习,天天进步 阅读(1053) 评论(0) 推荐(0) 编辑