词频统计工程有关(2)
摘要:听说需求改了,那正好重新怒写一版。一、首先是对于需求和基本方案:重新列一下需求,国行中文版。 Word 单词定义: i.至少含有三个字符、且开头三个字符必须是字母; eg.hao123 == word;123hao!=word ii.不包含任何非字母或者数字的字符; 助教后来说这个本质就是认为除了字母和数字以外都算分隔符的意思。 iii.对于同一个单词的计数,大小写不敏感; eg.File == FILE == file 扩展模式下进一步: 两个单词仅有尾部数字不同时,认为是同一个单词。打印时并不忽略数字。 eg....
阅读全文
词频统计工程有关
摘要://=======================开始干之前=======================模块Word Set 词表。Seek Files 搜索文件。Parse Files 分词记录。Sort and Print 排序打印。打算用C++写预计8个小时能写完吧//=======================开始干之后=======================用C# .NET 各种方便,就用C#了。Word Set 词表。1分钟。。Seek Files 搜索文件。C#有Directory,又5分钟。Parse Files 分词记录。C#有splitter,又5分钟,扩展模式写
阅读全文