随笔分类 - Python
摘要:引言 最近自己在开始弄关于Python Spider的内容,就像大家一开始学习一样,都是默默地从环境配置开始。总得来说,这次关于Python Spider的环境配置还是挺快的,基本上没有问题,主要是在这之前就把一些必要的软件给安装好了,例如 ,`Pycharm Vscode selenium req
阅读全文
摘要:``` #-*- coding=utf-8 -*- # 简单的一个类实例 class Ta(): var1 = 'demo' var2 = 'test' def fun(): print('简单测试类方法') # 使用类的方法和属性 print(Ta.var1) Ta.fun() # 在同一个类里,方法如何调用类属性 class Demo(): var1 = '被调用' # 在这里是有使用clas
阅读全文
摘要:选择排序,在于每一次都将一个数筛选出来,存在另一个数组中。
阅读全文
摘要:二分算法采用分而治之的思想,算法思路比较简单,便直接附上一端代码 上述代码便是一个数组二分查找算法的具实现。
阅读全文
摘要:实现文档聚类的总体思想: 将已经分好词的文档提取关键词,统计词频: 上面的count函数统计的一篇文档的词频,如果每篇文档都需要统计则需要调用这个count函数,每调用一次就返回一个dict,给一个文档集统计词频的参考代码如下(假设有500篇文档): 上面两部分可以实现将文档集里的关键词,担心是否正
阅读全文
摘要:在今天刚刚打开pycharm运行爬虫时,发现所有的爬虫都不能运行,会出现如下的错误: 错误出现的主要原因是;代理错误(其实自己根本没有设置代理) 解决方法: 在网上查阅了许多类似的错误解决方法,试过后都发现并没有什么结果。由于是代理错误,就是在自己的电脑上代理这方面研究。 试过许多次后,发现如下步骤
阅读全文
摘要:分词工具的选择: 现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。 分词前的准备: 待分词的中文文档 存放分词之后
阅读全文
摘要:向量空间模型VSM: VSM的介绍: 一个文档可以由文档中的一系列关键词组成,而VSM则是用这些关键词的向量组成一篇文档,其中的每个分量代表词项在文档中的相对重要性。 VSM的例子: 比如说,一个文档有分词和去停用词之后,有N个关键词(或许去重后就有M个关键词),文档关键词相应的表示为(d1,d2,
阅读全文