摘要: 支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。关键词:HMM 隐马尔可夫模型 三种分词模式: 结果:中华人民共和国 阅读全文
posted @ 2018-01-12 21:45 驯龙高手 阅读(3285) 评论(0) 推荐(0) 编辑
摘要: Pandas 是 python的一个数据分析包,它提供了大量的数据模型型和函数库,对数据处理很方便。DataFrame 是一个二维表格数据结构,可以当做数据库中的一张关系表。Pandas 可以实现 SQL 中的语句,对 DataFrame 的操作相当于对二维表操作一样。 还是以股票某天的分笔记录为例 阅读全文
posted @ 2018-01-12 16:27 驯龙高手 阅读(1226) 评论(0) 推荐(0) 编辑
摘要: 探索性数据分析,主要针对原始数据进行初次了解。了解数据的分布情况、了解分析方向、排除该单个变量的异常值 等。此脚本读取的是 SQL Server ,只需给定表名或视图名称,如果有数据,将输出每个字段符合要求的每张数据分布图。 显示图分为字符型(离散型)和数值型(连续型),示例结果如下: 阅读全文
posted @ 2018-01-12 16:11 驯龙高手 阅读(13902) 评论(0) 推荐(2) 编辑