词频统计

   在过往的几周,编写词频统计程序的时候,无论是输入英文文章,还是通过txt的格式读取文件,进行词频统计。都会面临着一个问题,在实际应用中,大多数文章都会在word,pdf等文档中保存着,在windows中人们很少会存储txt文件。那么进行词频统计时,必定需要先读取。如果是word,可以像txt一样读取。那么如果文章要是在pdf中,怎么进行读取?是否应该先将pdf格式转换,然后在进行读取。还是如何操作呢?那么程序该怎样编写呢?很是困扰。上网查了些资料,pdf格式转换,要么有pdf专用的阅读器,要么是花钱将pdf格式进行转换,转换成word,进而像操作word一样进行词频统计。面对pdf格式该如何编写程序呢?以上仅个人想法。

posted @ 2016-11-06 18:06  handsomeman  阅读(426)  评论(2编辑  收藏  举报