02 2018 档案

笔记 利用python进行数据分析
摘要:# encoding=utf-8 import json from pandas import DataFrame, Series import pandas as pd import numpy as np import pylab as pl from numpy.distutils.system_info import agg2_info def get_counts(seque... 阅读全文

posted @ 2018-02-10 14:25 奔跑吧,蜗牛! 阅读(297) 评论(0) 推荐(0) 编辑

算法浅入浅出之Textrank
摘要:一 自动文摘的方法 自动文摘(Automatic Summarization)的方法主要有两种:Extraction和Abstraction。 Extraction是抽取式自动文摘方法,通过提取文档中已存在的关键词,句子形成摘要; Abstraction是生成式自动文摘方法,通过建立抽象的语意表示, 阅读全文

posted @ 2018-02-09 18:21 奔跑吧,蜗牛! 阅读(694) 评论(0) 推荐(0) 编辑

算法浅入浅出之TF-IDF
摘要:假设现在有一篇很长的文章,要从中提取出它的关键字,完全不人工干预,那么怎么做到呢?又有如如何判断两篇文章的相似性的这类问题,这是在数据挖掘,信息检索中经常遇到的问题,然而TF-IDF算法就可以解决。 浅入 举个例子理解一下 有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计 阅读全文

posted @ 2018-02-07 13:35 奔跑吧,蜗牛! 阅读(639) 评论(0) 推荐(0) 编辑

python库之jieba小试牛刀 3
摘要:关键词提取 1 基于 TF-IDF 算法的关键词抽取 import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())jieba.analyse.TFIDF(idf_pa 阅读全文

posted @ 2018-02-05 18:36 奔跑吧,蜗牛! 阅读(480) 评论(0) 推荐(0) 编辑

python库之jieba小试牛刀 2
摘要:1 词频统计、降序排序 结果 需要前多少位高频词? 10, 59的 53。 46- 33 26编程 16: 14python 13了 12Python 12 发现个问题, 好多标点符号这些无用信息也统计上了 2 人工去掉停顿 结果: 需要前多少位高频词? 10编程 16python 13Python 阅读全文

posted @ 2018-02-05 10:45 奔跑吧,蜗牛! 阅读(859) 评论(0) 推荐(0) 编辑

python库之jieba小试牛刀
摘要:1 安装 代码对 Python 2/3 均兼容 全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装:先下载 https://pypi.python.org/pypi/jieba/ ,解压后运行 pytho 阅读全文

posted @ 2018-02-02 18:48 奔跑吧,蜗牛! 阅读(257) 评论(0) 推荐(0) 编辑

Ubuntu下安装jdk
摘要:骤1:下载jdk 我选择的jdk版本文件: jdk-8u131-linux-x64.tar.gz 步骤2:创建单独的目录 sudo mkdir /usr/local/java 步骤3:将下载的文件复制到我们创建的文件夹下 sudo cp /home/lsk/Downloads/jdk-8u131-l 阅读全文

posted @ 2018-02-02 09:26 奔跑吧,蜗牛! 阅读(175) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示