摘要:
1. 什么是WS-Security? WS-Security 是一个 SOAP 的扩展,它提供了对 SOAP 消息的认证和加密。 在介绍 WS-Security 之前,我们有必要了解一下 WS-Security 存在的原因。很多刚刚接触 Web 服务的人都将 SOAP 看作是通过 HTTP 在两个端点之间交换消息的方法。通过 HTTP 可以验证调用方的身份、对消息签名以及对消息内容加密。这可以在... 阅读全文
摘要:
1. 有哪些网页检索维护的方法 主要有宽度(广度)优先,兼顾深度的遍历策略、不重复抓取策略、大站优先策略、非完全PageRank策略、OCIP策略、合作抓取策略等主流的网页抓取策略。 详细内容请参考:搜索引擎爬虫网页抓取策略 非完全PageRank策略(Partial PageRank) 对于已经下载的网页(不完整的互联网页面的子集)内,加上待抓取的URL队列中的URL一起,形成网页集合,在... 阅读全文
摘要:
1. 网页提取正文的方法有哪些? 基于统计信息: 基于DOM的网页主题信息自动提取, 使用特征文本密度的网页正文提取, 基于标签密度的自适应正文提取方法, 基于行块分布函数的正文提取方法。 基于视觉 基于决策树 基于包装器 2. 有哪些中文分词方法 基于字符串匹配的分词方法 一般的做法是首选根据停顿词(比如:的,是等)将字符串分解多个更小的字符串,之后在对分解后的字符串分词,该分词方... 阅读全文