2018 年 2月随笔档案 - 奔跑吧，蜗牛！

笔记利用python进行数据分析

摘要：# encoding=utf-8 import json from pandas import DataFrame, Series import pandas as pd import numpy as np import pylab as pl from numpy.distutils.system_info import agg2_info def get_counts(seque... 阅读全文

posted @ 2018-02-10 14:25 奔跑吧，蜗牛！阅读(297) 评论(0) 推荐(0) 编辑

算法浅入浅出之Textrank

摘要：一自动文摘的方法自动文摘（Automatic Summarization）的方法主要有两种：Extraction和Abstraction。 Extraction是抽取式自动文摘方法，通过提取文档中已存在的关键词，句子形成摘要； Abstraction是生成式自动文摘方法，通过建立抽象的语意表示，阅读全文

posted @ 2018-02-09 18:21 奔跑吧，蜗牛！阅读(694) 评论(0) 推荐(0) 编辑

算法浅入浅出之TF-IDF

摘要：假设现在有一篇很长的文章，要从中提取出它的关键字，完全不人工干预，那么怎么做到呢？又有如如何判断两篇文章的相似性的这类问题，这是在数据挖掘，信息检索中经常遇到的问题，然而TF-IDF算法就可以解决。浅入举个例子理解一下有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计阅读全文

posted @ 2018-02-07 13:35 奔跑吧，蜗牛！阅读(639) 评论(0) 推荐(0) 编辑

python库之jieba小试牛刀 3

摘要：关键词提取 1 基于 TF-IDF 算法的关键词抽取 import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())jieba.analyse.TFIDF(idf_pa 阅读全文

posted @ 2018-02-05 18:36 奔跑吧，蜗牛！阅读(480) 评论(0) 推荐(0) 编辑

python库之jieba小试牛刀 2

摘要：1 词频统计、降序排序结果需要前多少位高频词？ 10， 59的 53。 46- 33 26编程 16： 14python 13了 12Python 12 发现个问题，好多标点符号这些无用信息也统计上了 2 人工去掉停顿结果：需要前多少位高频词？ 10编程 16python 13Python 阅读全文

posted @ 2018-02-05 10:45 奔跑吧，蜗牛！阅读(859) 评论(0) 推荐(0) 编辑

python库之jieba小试牛刀

摘要：1 安装代码对 Python 2/3 均兼容全自动安装： easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装：先下载 https://pypi.python.org/pypi/jieba/ ，解压后运行 pytho 阅读全文

posted @ 2018-02-02 18:48 奔跑吧，蜗牛！阅读(257) 评论(0) 推荐(0) 编辑

Ubuntu下安装jdk

摘要：骤1：下载jdk 我选择的jdk版本文件： jdk-8u131-linux-x64.tar.gz 步骤2：创建单独的目录 sudo mkdir /usr/local/java 步骤3：将下载的文件复制到我们创建的文件夹下 sudo cp /home/lsk/Downloads/jdk-8u131-l 阅读全文

posted @ 2018-02-02 09:26 奔跑吧，蜗牛！阅读(175) 评论(0) 推荐(0) 编辑

02 2018 档案

笔记利用python进行数据分析

算法浅入浅出之Textrank

算法浅入浅出之TF-IDF

python库之jieba小试牛刀 3

python库之jieba小试牛刀 2

python库之jieba小试牛刀

Ubuntu下安装jdk

导航

统计

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

推荐排行榜