摘要:
“自然语言处理”(Natural Language Processing 简称 NLP)包含所有用计算机对自然语言进行的操作。 自然语言工具包(NLTK) 语言处理任务与相应 NLTK 模块以及功能描述 NLTK 频率分布类中定义的函数 示例:简单的语音对话系统的流程架构: 分析语音输入(左上),识 阅读全文
摘要:
scrapy本身并不是一个为分布式爬取而设计的框架,但第三方库scrapy-redis为其扩展了分布式抓取的功能,在分布式爬虫框架中,需要使用某种通信机制协调各个爬虫工作 (1)当前的爬取任务,下载+提取数据(分配任务) (2)当前爬取任务是否已经被其他爬虫执行过(任务去重) (3)如何存储怕去到的 阅读全文
摘要:
组件: ENGINE:引擎,框架的核心,其他组件在其控制下协同工作。 SCHEDULER:调度器,负责对SPIDER提交的下载请求进行调度 DOWNLOADER:下载器,负责下载页面,发送HTTP请求/接收HTTP响应 SPIDER:爬虫,负责提取页面数据,并产生对新的页面的下载请求 MIDDLEW 阅读全文
摘要:
MVC 大部分开发语言中都有MVC框架 MVC框架的核心思想是:解耦 降低各功能模块之间的耦合性,方便变更,更容易重构代码,最大程度上实现代码的重用 m表示model,主要用于对数据库层的封装 v表示view,用于向用户展示结果 c表示controller,是核心,用于处理请求、获取数据、返回结果 阅读全文
摘要:
NoSQL 是什么,优势在哪? NoSQL 全称为 Not Only SQL,传统 的关系模型使用 的是固定模式 , 并将数据分割到各个表中 。 然而 , 对于大数 据集的情况 , 数据量太大使其难 以 存放在单一服务器 中 , 此 时就需要扩展到 多 台服务器 。 不过 , 关系模型对于这种扩展的 阅读全文
摘要:
从页面中提取数据的核心技术是HTTP文本解析,在python中常用的模块处理: BeautifulSoup 非常流行的解析库,API简单,但解析的速度慢。 lxml 是一套使用c语言编写的xml解析库,解析速度快,API相对比较复杂。 Scrapy中的Selector类是基于lxml库建立的,并且简 阅读全文
摘要:
python抓取头条美文并存储到mongodb 阅读全文
摘要:
数据可视化指的是通过可视化表示来探索数据 数据挖掘指的是使用代码来探索数据集的规律和关联 使用matplotlib可制作的各种图表 绘制简单的折线图 结果图 调整可视化的各个方面,改善这个图形的可读性 当你向plot()提供一系列数字时,它假设第一个数据点对应的x坐标值为0,为改变这种默认行为,我们 阅读全文
摘要:
编写函数或者类时进行测试,确保代码正常工作 python unittest 模块提供了代码测试工具。按照定义测试包括两部分:管理测试依赖库的代码(称为‘固件’)和测试本身。 单元测试用于核实函数的某个方面没有问题; 测试用例是一组单元测试,这些单元测试一起核实函数在各种情况选的行为都符合要求 uni 阅读全文
摘要:
selenium模块 简单小例子 阅读全文