摘要: 创建项目时添加虚拟环境,debug模式的设置,配置文件config.py的设置 阅读全文
posted @ 2018-03-24 19:16 嶙羽 阅读(244) 评论(0) 推荐(0) 编辑
摘要: python虚拟环境的搭建,认识web 阅读全文
posted @ 2018-03-24 09:56 嶙羽 阅读(852) 评论(2) 推荐(0) 编辑
摘要: 因为之后要做一个英文专利文本相似度分析的项目,所以先把文本预处理的流程放上来,以供参考,转自http://www.cnblogs.com/pinard/p/6756534.html 1. 英文文本挖掘预处理特点 英文文本的预处理方法和中文的有部分区别。首先,英文文本挖掘预处理一般可以不做分词(特殊需 阅读全文
posted @ 2018-03-23 14:42 嶙羽 阅读(703) 评论(0) 推荐(0) 编辑
摘要: 之前就了解过TF-IDF,现在做一个回顾。 概念: TF(Term Frequency)词频:一个文档中关键词出现的次数/该文档的总词数, IDF(Inverse Document Frequency)逆文档频率: 如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了 阅读全文
posted @ 2018-03-23 13:22 嶙羽 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 最近写爬虫的时候遇到了一个问题,爬一个专利网站,主要工作流是先把列表页下所有的专利包括专利号、专利名称、URL放到数据库的一个文档info中,再抽取info中的URL进行爬取详情页,爬取列表页的信息做了一个去重,爬一个就在数据库里查一个。。效率就不提了(另一种我能想到的方法是先用线程池爬取一遍,把单 阅读全文
posted @ 2018-03-22 21:07 嶙羽 阅读(1809) 评论(0) 推荐(0) 编辑
摘要: 简单粗暴上代码 酱紫,就合成了一个字典 阅读全文
posted @ 2018-03-22 20:37 嶙羽 阅读(2406) 评论(0) 推荐(0) 编辑
摘要: ARP(地址解析协议) 局域网: ARP地址解析协议用于将计算机的网络IP地址转化为物理MAC地址,ARP协议的基本功能就是通过目标设备的IP地址。查询目标设备的MAC地址,以保证通信的顺利进行。在每台安装有TCP/IP协议的电脑里都有一个ARP缓存表,表里的IP地址与MAC地址是一一对应的 代理A 阅读全文
posted @ 2018-03-22 02:01 嶙羽 阅读(1751) 评论(0) 推荐(0) 编辑
摘要: 搭建环境: win10,Python3.6,pycharm,未设虚拟环境 之前写的爬虫并没有架构的思想,且不具备面向对象的特征,现在写一个基础爬虫架构,爬取百度百科,首先介绍一下基础爬虫框架的五大模块功能,包括爬虫调度器,URL管理器,HTML下载器,HTML解析器,数据存储器,功能分析如下: >> 阅读全文
posted @ 2018-03-21 17:39 嶙羽 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 逻辑地址和物理地址 >>逻辑地址:工作在网络层,也叫IP地址,①具有全局唯一性②用软件实现③32位 10.1.0.6 -——>00001010.00000001.00000000.00000110 >>物理地址:硬件地址、链路地址,也叫MAC地址,工作在网络接口层 ①本地范围唯一②用硬件实现③日常以 阅读全文
posted @ 2018-03-21 02:03 嶙羽 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 网络层协议 >>IP协议 >>ARP(地址解析协议) >>RARP(反向地址解析协议) >>ICMP(互联网控制消息协议) IP协议功能 >>寻址和路由:从一个地点到另一个地点的线路 >>传递服务 >>不可靠,可靠性由上层协议提供 >>无连接:发送数据之前不建立会话 >>数据报分段和重组 固定部分是 阅读全文
posted @ 2018-03-21 01:07 嶙羽 阅读(475) 评论(0) 推荐(0) 编辑