论文笔记

7.21

7.20

  • wechat :利用Python实现wiki中文语料的word2vec聚类 
    •   算法】word2vec与doc2vec模型
    •  自然语言处理资源和Python自然语言处理工具总结
      •   6 FudanNLP

        FudanNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。FudanNLP及其包含数据集使用LGPL3.0许可证。主要功能包括:

        • 信息检索:文本分类,新闻聚类。

        • 中文处理:中文分词,词性标注,实体名识别,关键词抽取,依存句法分析,时间短语识别。

        • 结构化学习:在线学习,层次分类,聚类,精确推理。

        工具采用Java编写,提供了API的访问调用方式。下载安装包后解压后,内容如下图所示:

    •    NLP之Word2Vec模型和Doc2Vec模型

    • 文本主题发现(一)-- 数据预处理

      •    公众号后台回复关键字即可学习

        回复 R                  R语言快速入门及数据挖掘 
        回复 Kaggle案例  Kaggle十大案例精讲(连载中)
        回复 文本挖掘      手把手教你做文本挖掘

    •   

7.19

7.9

7.6

  • python 3解决 unicode error问题
  • #参考资料:https://blog.csdn.net/wang7807564/article/details/78164855/
    #打开文件 读取时使用二进制 rb,解码再用 gbk
    with open("idiom corpus/corpus_焕然一新.txt",'rb') as f:
        for line in f:
            line = f.readline()
            print(line.decode('gbk'))
            
        

     

7.5  

  • 文本聚类教程 https://blog.csdn.net/xiaoxik/article/details/78742308
  • 文本聚类教程http://www.cnblogs.com/onlytiancai/archive/2008/05/10/1191557.html

7.4

 

 

 

 基于非平行语料的双语词典构建  张 檬  刘 洋  孙 茂松

  •   参考文献:
  •   Dictionary-based techniques for cross-language information retrieval.

google 计算机在词典编纂中的作用

  • http://ling.cass.cn/xzfc/xzfc_xzft/201804/t20180425_4213449.html
  • 章宜华教授谈外向型汉语学习词典编研工作
    • “学习词典”是20世纪上半叶为海外英语教学而编纂的词典,译自英语的“learner’s dictionary”,即面向非母语学习者的专门性语文词典。为母语学习者编纂的辞书则称为“school dictionary”或“students’ dictionary”(学生词典)。英国的学习词典很发达,以牛津词典和朗文词典为代表的英语词典几乎占领了我国英语学习词典的整个市场。

goole idom exemplification classification extraction'

 

posted on 2018-07-02 21:37  Gailsunset  阅读(210)  评论(0编辑  收藏  举报