摘要: “自然语言处理”(Natural Language Processing 简称 NLP)包含所有用计算机对自然语言进行的操作。 自然语言工具包(NLTK) 语言处理任务与相应 NLTK 模块以及功能描述 NLTK 频率分布类中定义的函数 示例:简单的语音对话系统的流程架构: 分析语音输入(左上),识 阅读全文
posted @ 2018-05-21 23:26 Mr.SSC 阅读(228) 评论(0) 推荐(0) 编辑
摘要: scrapy本身并不是一个为分布式爬取而设计的框架,但第三方库scrapy-redis为其扩展了分布式抓取的功能,在分布式爬虫框架中,需要使用某种通信机制协调各个爬虫工作 (1)当前的爬取任务,下载+提取数据(分配任务) (2)当前爬取任务是否已经被其他爬虫执行过(任务去重) (3)如何存储怕去到的 阅读全文
posted @ 2018-05-16 18:00 Mr.SSC 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 组件: ENGINE:引擎,框架的核心,其他组件在其控制下协同工作。 SCHEDULER:调度器,负责对SPIDER提交的下载请求进行调度 DOWNLOADER:下载器,负责下载页面,发送HTTP请求/接收HTTP响应 SPIDER:爬虫,负责提取页面数据,并产生对新的页面的下载请求 MIDDLEW 阅读全文
posted @ 2018-05-14 16:13 Mr.SSC 阅读(472) 评论(0) 推荐(0) 编辑
摘要: MVC 大部分开发语言中都有MVC框架 MVC框架的核心思想是:解耦 降低各功能模块之间的耦合性,方便变更,更容易重构代码,最大程度上实现代码的重用 m表示model,主要用于对数据库层的封装 v表示view,用于向用户展示结果 c表示controller,是核心,用于处理请求、获取数据、返回结果 阅读全文
posted @ 2018-05-09 17:12 Mr.SSC 阅读(145) 评论(0) 推荐(0) 编辑
摘要: NoSQL 是什么,优势在哪? NoSQL 全称为 Not Only SQL,传统 的关系模型使用 的是固定模式 , 并将数据分割到各个表中 。 然而 , 对于大数 据集的情况 , 数据量太大使其难 以 存放在单一服务器 中 , 此 时就需要扩展到 多 台服务器 。 不过 , 关系模型对于这种扩展的 阅读全文
posted @ 2018-04-29 13:00 Mr.SSC 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 从页面中提取数据的核心技术是HTTP文本解析,在python中常用的模块处理: BeautifulSoup 非常流行的解析库,API简单,但解析的速度慢。 lxml 是一套使用c语言编写的xml解析库,解析速度快,API相对比较复杂。 Scrapy中的Selector类是基于lxml库建立的,并且简 阅读全文
posted @ 2018-04-26 00:18 Mr.SSC 阅读(6939) 评论(0) 推荐(2) 编辑
摘要: python抓取头条美文并存储到mongodb 阅读全文
posted @ 2018-04-23 23:47 Mr.SSC 阅读(1131) 评论(0) 推荐(0) 编辑
摘要: 数据可视化指的是通过可视化表示来探索数据 数据挖掘指的是使用代码来探索数据集的规律和关联 使用matplotlib可制作的各种图表 绘制简单的折线图 结果图 调整可视化的各个方面,改善这个图形的可读性 当你向plot()提供一系列数字时,它假设第一个数据点对应的x坐标值为0,为改变这种默认行为,我们 阅读全文
posted @ 2018-04-23 00:23 Mr.SSC 阅读(4212) 评论(0) 推荐(0) 编辑
摘要: 编写函数或者类时进行测试,确保代码正常工作 python unittest 模块提供了代码测试工具。按照定义测试包括两部分:管理测试依赖库的代码(称为‘固件’)和测试本身。 单元测试用于核实函数的某个方面没有问题; 测试用例是一组单元测试,这些单元测试一起核实函数在各种情况选的行为都符合要求 uni 阅读全文
posted @ 2018-04-22 17:37 Mr.SSC 阅读(547) 评论(0) 推荐(0) 编辑
摘要: selenium模块 简单小例子 阅读全文
posted @ 2018-04-21 00:29 Mr.SSC 阅读(230) 评论(0) 推荐(0) 编辑