大数据基础--互联网大数据处理（刘鹏《大数据》课后习题答案）

1.简述互联网信息抓取的方式。

　　互联网信息自动抓取，最常见且有效的方式是使用网络爬虫。

2.简述舆情系统的组成架构。

　　用户终端->采集层->分析层->呈现层->用户

3.中文分词算法可以分为哪几类？

　　（1）基于字符串匹配的分词方法，它是待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规则进行匹配，若某字符串存在于词典中，则认为该字符串匹配成功。

　　（2）基于统计的分词方法，由于词是特定的字组合方式，那么在上下文中，相邻的单字共同出现的频率越高，则在该种字组合方式下就越有可能构成了一个词。

　　（3）基于理解的分词方法，该方法通过语义信息和语句信息来解决歧义分词问题，并且在分词的同时进行语义和句法分析。

4.常用的文本分词工具有哪些？

　　（1）MMSEG分词工具

　　（2）斯坦福NLTK分词工具

5.简述倒排索引的原理。

　　倒排索引（Inverted Index），也称为“反向索引”或“反向文件”，是一种索引数据结构。倒排索引在“内容”（例如，单词、数字）和存放内容的“位置”（例如，数据库、文件、一组文件）之间建立映射，其目的在于快速全文检索和使用最小处理代价将新文件添加进数据库。通过倒排索引，可以快速地根据“内容”找到包含它的文件。

6.简述倒排索引的更新策略。