摘要: import decimal as debb=de.Decimal('7.325').quantize(de.Decimal('.01'), decimal.ROUND_UP) print(bb) 输出:7.33 quantize() 方法将数字四舍五入为固定指数。 阅读全文
posted @ 2020-03-15 20:21 小千北同学超爱写代码 阅读(388) 评论(0) 推荐(0) 编辑
摘要: Counter 集成于 dict 类,因此也可以使用字典的方法,此类返回一个以元素为 key 、元素个数为 value 的 Counter 对象集合。 当要对列表,字符串进行计数的时候可以用这个,避免了一层层的循环 比如对表格中的标签的数目进行统计的时候 label_count = Counter( 阅读全文
posted @ 2020-03-15 18:31 小千北同学超爱写代码 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 一、基本理论 分类于回归决策树模型(classification and regression,CART)相对于前面的纯分类决策树,之前的纯分类决策树中主要是通过一些构造好的互斥完备的规则来对样本进行类别划分,而CART主要是利用决策树将特征空间划分成有限个单元,并在这些单元上确定预测的概率分布。 阅读全文
posted @ 2020-03-14 22:57 小千北同学超爱写代码 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 一、引言 分类决策树是一种基于特征对实例进行划分的树形结构。如下图: 图中包括有内部节点和叶子节点,叶子节点表示的是分类结果,而内部节点表示基于特征对实例的划分。如根节点,是根据特征x1是否大于a1进行划分,划分成两个内部节点,但是此时的两个内部节点各自所包含的实例中依然有不同类别的实例,需要进一步 阅读全文
posted @ 2020-03-13 16:30 小千北同学超爱写代码 阅读(1778) 评论(0) 推荐(0) 编辑
摘要: 参考:http://www.52nlp.cn/%e7%90%86%e8%ae%ba-%e6%9c%b4%e7%b4%a0%e8%b4%9d%e5%8f%b6%e6%96%af%e6%a8%a1%e5%9e%8b%e7%ae%97%e6%b3%95%e7%a0%94%e7%a9%b6%e4%b8%8e 阅读全文
posted @ 2020-03-12 23:21 小千北同学超爱写代码 阅读(434) 评论(0) 推荐(0) 编辑
摘要: 一、将语料库转化为向量(gensim) 在对语料库进行基本的处理后(分词,去停用词),有时需要将它进行向量化,便于后续的工作。 from gensim import corpora,similarities,models import jieba #第一步:确定语料库的语料和要进行判断的句子: #w 阅读全文
posted @ 2020-03-12 18:40 小千北同学超爱写代码 阅读(875) 评论(0) 推荐(0) 编辑
摘要: 文本向量化就是将文本表示成一系列能够表达文本语义的向量,当前阶段,文本向量化主要是通过词的向量化实现的,word2vec技术就是以词为基本处理单元的。 阅读全文
posted @ 2020-03-12 14:57 小千北同学超爱写代码 阅读(633) 评论(0) 推荐(0) 编辑
摘要: 本文介绍一些常用的无监督关键词提取算法:TF-IDF,TextRank,主题模型算法 一、TF-IDF算法 即词频-逆文档频次算法,其基本思想是想要找到这样的词:它在一篇文档中出现的频次高(TF),即说明这篇文档很有可能围绕这个词进行说明;但是并不在多篇文档中出现(IDF),即说明这个词对文档的区分 阅读全文
posted @ 2020-03-10 21:15 小千北同学超爱写代码 阅读(881) 评论(0) 推荐(0) 编辑
摘要: 高频词提取(TF,Term Frequency),高频词指在文档中出现频率较高并且有用的词。 所以我们要做的工作有:加载数据,去除停用词,用字典统计高频词,输出top10的高频词。 import glob import random import jieba def getContent(path) 阅读全文
posted @ 2020-03-10 20:29 小千北同学超爱写代码 阅读(2047) 评论(0) 推荐(0) 编辑
摘要: 本文主要讲统计分词。 中文预处理的一个重要的环节就是对语料进行分词,将一句话或者一个段落拆分成许多独立个体的词,然后方便向量化,接着进行TF-IDF的特征处理。 在英语中,单词本身就是“词”,而在汉语中,“词”以“字”为基本单位,文章的语义表达仍然以“词”来划分,所以在处理中文文本时,需要进行分词处 阅读全文
posted @ 2020-03-09 19:00 小千北同学超爱写代码 阅读(847) 评论(0) 推荐(0) 编辑