Mr.SSC - 博客园

2018年5月21日

摘要： “自然语言处理”（Natural Language Processing 简称 NLP）包含所有用计算机对自然语言进行的操作。自然语言工具包（NLTK）语言处理任务与相应 NLTK 模块以及功能描述 NLTK 频率分布类中定义的函数示例：简单的语音对话系统的流程架构：分析语音输入（左上），识阅读全文

posted @ 2018-05-21 23:26 Mr.SSC 阅读(229) 评论(0) 推荐(0) 编辑

2018年5月16日

scrapy分布式抓取基本设置

摘要： scrapy本身并不是一个为分布式爬取而设计的框架，但第三方库scrapy-redis为其扩展了分布式抓取的功能，在分布式爬虫框架中，需要使用某种通信机制协调各个爬虫工作（1）当前的爬取任务，下载+提取数据（分配任务）（2）当前爬取任务是否已经被其他爬虫执行过（任务去重）（3）如何存储怕去到的阅读全文

posted @ 2018-05-16 18:00 Mr.SSC 阅读(157) 评论(0) 推荐(0) 编辑

2018年5月14日

scrapy框架结构与工作原理

摘要：组件： ENGINE：引擎，框架的核心，其他组件在其控制下协同工作。 SCHEDULER：调度器，负责对SPIDER提交的下载请求进行调度 DOWNLOADER：下载器，负责下载页面，发送HTTP请求/接收HTTP响应 SPIDER：爬虫，负责提取页面数据，并产生对新的页面的下载请求 MIDDLEW 阅读全文

posted @ 2018-05-14 16:13 Mr.SSC 阅读(475) 评论(0) 推荐(0) 编辑

2018年5月9日

django

摘要： MVC 大部分开发语言中都有MVC框架 MVC框架的核心思想是：解耦降低各功能模块之间的耦合性，方便变更，更容易重构代码，最大程度上实现代码的重用 m表示model，主要用于对数据库层的封装 v表示view，用于向用户展示结果 c表示controller，是核心，用于处理请求、获取数据、返回结果阅读全文

posted @ 2018-05-09 17:12 Mr.SSC 阅读(145) 评论(0) 推荐(0) 编辑

2018年4月29日

python 小笔记

摘要： NoSQL 是什么，优势在哪？ NoSQL 全称为 Not Only SQL，传统的关系模型使用的是固定模式，并将数据分割到各个表中。然而，对于大数据集的情况，数据量太大使其难以存放在单一服务器中，此时就需要扩展到多台服务器。不过，关系模型对于这种扩展的阅读全文

posted @ 2018-04-29 13:00 Mr.SSC 阅读(299) 评论(0) 推荐(0) 编辑

2018年4月26日

scrapy框架Selector提取数据

摘要：从页面中提取数据的核心技术是HTTP文本解析，在python中常用的模块处理： BeautifulSoup 非常流行的解析库，API简单，但解析的速度慢。 lxml 是一套使用c语言编写的xml解析库，解析速度快，API相对比较复杂。 Scrapy中的Selector类是基于lxml库建立的，并且简阅读全文

posted @ 2018-04-26 00:18 Mr.SSC 阅读(6943) 评论(0) 推荐(2) 编辑

2018年4月23日

python抓取头条文章

摘要： python抓取头条美文并存储到mongodb 阅读全文

posted @ 2018-04-23 23:47 Mr.SSC 阅读(1131) 评论(0) 推荐(0) 编辑

python 数据可视化（一）

摘要：数据可视化指的是通过可视化表示来探索数据数据挖掘指的是使用代码来探索数据集的规律和关联使用matplotlib可制作的各种图表绘制简单的折线图结果图调整可视化的各个方面，改善这个图形的可读性当你向plot()提供一系列数字时，它假设第一个数据点对应的x坐标值为0，为改变这种默认行为，我们阅读全文

posted @ 2018-04-23 00:23 Mr.SSC 阅读(4213) 评论(0) 推荐(0) 编辑

2018年4月22日

python unittest自动测试框架

摘要：编写函数或者类时进行测试，确保代码正常工作 python unittest 模块提供了代码测试工具。按照定义测试包括两部分：管理测试依赖库的代码（称为‘固件’）和测试本身。单元测试用于核实函数的某个方面没有问题；测试用例是一组单元测试，这些单元测试一起核实函数在各种情况选的行为都符合要求 uni 阅读全文

posted @ 2018-04-22 17:37 Mr.SSC 阅读(547) 评论(0) 推荐(0) 编辑

2018年4月21日

使用selenium抓取淘宝信息并存储mongodb

摘要： selenium模块简单小例子阅读全文

posted @ 2018-04-21 00:29 Mr.SSC 阅读(230) 评论(0) 推荐(0) 编辑

本心从未变

You only get one life.It's actually your duty to live it as fully as possible.

公告