每日技术 | 毕设

  • python结巴分词

    用jieba分词不仅可以做最基础的分词,还可以添加自定义词典和用来做词性标注!

    详细用法:http://www.tuicool.com/articles/QV36ru

  • python常见编解码问题

    了解ASCII、ANSI、UNICODE以及UTF-8的相关知识

    在python中,分清str和unicode的概念

    参考:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

          https://gist.github.com/x7hub/178c87f323fbad57ff91

  • 记忆工具

    Anki(看到有人推荐,但还没有学着用)

  • 归一化处理

    数据的归一化(normalization)是将数据经过某种运算,使之落入一个你想要的区间内。

    归一化在某些比较和评价的指标处理中经常会用到,可用于去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

    在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。

    方法有如下:
    1、线性函数转换,表达式如下:
      y=(x-MinValue)/(MaxValue-MinValue)
      说明:x、y分别为转换前、后的值,MaxValue、MinValue分 别为样本的最大值和最小值。
    2、对数函数转换,表达式如下:
      y=log10(x)
      说明:以10为底的对数函数转换。
    3、反余切函数转换,表达式如下:
      y=atan(x)*2/PI
    4、Z-score标准化方法
    参考:http://webdataanalysis.net/data-analysis-method/data-normalization/
      
posted @ 2017-03-11 13:47  be myself zq  阅读(117)  评论(0编辑  收藏  举报