摘要:# encoding=utf-8 import json from pandas import DataFrame, Series import pandas as pd import numpy as np import pylab as pl from numpy.distutils.system_info import agg2_info def get_counts(seque...
阅读全文
摘要:一 自动文摘的方法 自动文摘(Automatic Summarization)的方法主要有两种:Extraction和Abstraction。 Extraction是抽取式自动文摘方法,通过提取文档中已存在的关键词,句子形成摘要; Abstraction是生成式自动文摘方法,通过建立抽象的语意表示,
阅读全文
摘要:假设现在有一篇很长的文章,要从中提取出它的关键字,完全不人工干预,那么怎么做到呢?又有如如何判断两篇文章的相似性的这类问题,这是在数据挖掘,信息检索中经常遇到的问题,然而TF-IDF算法就可以解决。 浅入 举个例子理解一下 有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计
阅读全文
摘要:关键词提取 1 基于 TF-IDF 算法的关键词抽取 import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())jieba.analyse.TFIDF(idf_pa
阅读全文
摘要:1 词频统计、降序排序 结果 需要前多少位高频词? 10, 59的 53。 46- 33 26编程 16: 14python 13了 12Python 12 发现个问题, 好多标点符号这些无用信息也统计上了 2 人工去掉停顿 结果: 需要前多少位高频词? 10编程 16python 13Python
阅读全文
摘要:1 安装 代码对 Python 2/3 均兼容 全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后运行 pytho
阅读全文
摘要:骤1:下载jdk 我选择的jdk版本文件: jdk-8u131-linux-x64.tar.gz 步骤2:创建单独的目录 sudo mkdir /usr/local/java 步骤3:将下载的文件复制到我们创建的文件夹下 sudo cp /home/lsk/Downloads/jdk-8u131-l
阅读全文