随笔分类 -  Python

摘要:引言 最近自己在开始弄关于Python Spider的内容,就像大家一开始学习一样,都是默默地从环境配置开始。总得来说,这次关于Python Spider的环境配置还是挺快的,基本上没有问题,主要是在这之前就把一些必要的软件给安装好了,例如 ,`Pycharm Vscode selenium req 阅读全文
posted @ 2020-04-04 20:56 醉曦 阅读(744) 评论(0) 推荐(0) 编辑
摘要:``` #-*- coding=utf-8 -*- # 简单的一个类实例 class Ta(): var1 = 'demo' var2 = 'test' def fun(): print('简单测试类方法') # 使用类的方法和属性 print(Ta.var1) Ta.fun() # 在同一个类里,方法如何调用类属性 class Demo(): var1 = '被调用' # 在这里是有使用clas 阅读全文
posted @ 2020-04-04 00:01 醉曦 阅读(385) 评论(0) 推荐(0) 编辑
摘要:选择排序,在于每一次都将一个数筛选出来,存在另一个数组中。 阅读全文
posted @ 2018-10-10 19:36 醉曦 阅读(408) 评论(0) 推荐(0) 编辑
摘要:二分算法采用分而治之的思想,算法思路比较简单,便直接附上一端代码 上述代码便是一个数组二分查找算法的具实现。 阅读全文
posted @ 2018-10-10 19:08 醉曦 阅读(2122) 评论(0) 推荐(0) 编辑
摘要:实现文档聚类的总体思想: 将已经分好词的文档提取关键词,统计词频: 上面的count函数统计的一篇文档的词频,如果每篇文档都需要统计则需要调用这个count函数,每调用一次就返回一个dict,给一个文档集统计词频的参考代码如下(假设有500篇文档): 上面两部分可以实现将文档集里的关键词,担心是否正 阅读全文
posted @ 2018-09-07 13:32 醉曦 阅读(3519) 评论(0) 推荐(1) 编辑
摘要:在今天刚刚打开pycharm运行爬虫时,发现所有的爬虫都不能运行,会出现如下的错误: 错误出现的主要原因是;代理错误(其实自己根本没有设置代理) 解决方法: 在网上查阅了许多类似的错误解决方法,试过后都发现并没有什么结果。由于是代理错误,就是在自己的电脑上代理这方面研究。 试过许多次后,发现如下步骤 阅读全文
posted @ 2018-07-13 15:55 醉曦 阅读(2240) 评论(0) 推荐(0) 编辑
摘要:分词工具的选择: 现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。 分词前的准备: 待分词的中文文档 存放分词之后 阅读全文
posted @ 2018-06-24 17:36 醉曦 阅读(85741) 评论(21) 推荐(21) 编辑
摘要:向量空间模型VSM: VSM的介绍: 一个文档可以由文档中的一系列关键词组成,而VSM则是用这些关键词的向量组成一篇文档,其中的每个分量代表词项在文档中的相对重要性。 VSM的例子: 比如说,一个文档有分词和去停用词之后,有N个关键词(或许去重后就有M个关键词),文档关键词相应的表示为(d1,d2, 阅读全文
posted @ 2018-06-21 15:01 醉曦 阅读(21881) 评论(1) 推荐(4) 编辑

点击右上角即可分享
微信分享提示