08 2018 档案

数据的采集,清洗,数据机器自动标注及转化为深度学习格式
摘要:例子是来自基于深度学习的特定领域命名实体识别课题介绍如何利用原始数据生成测试集、训练集、验证集(看注释)这其中字典的价值很重要,需要自己创建(这里想到的是利用爬虫技术获取) #如何利用原始数据生成测试集、训练集、验证集 #encoding=utf8 import os,jieba,csv import jieba.posseg as pseg #os.getcwd()获取当前的工作路径,os.... 阅读全文

posted @ 2018-08-16 18:07 bep_code 阅读(1646) 评论(0) 推荐(0)

word2vec原理(一) CBOW与Skip-Gram模型基础——转载自刘建平Pinard
摘要:转载来源:http://www.cnblogs.com/pinard/p/7160330.html word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。虽然源码是开源的,但是谷歌的代码库国内无法 阅读全文

posted @ 2018-08-06 17:54 bep_code 阅读(2049) 评论(0) 推荐(0)

TF-IDF基本原理
摘要:1.TF-IDF介绍 TF/IDF(term frequency–inverse document frequency)用以评估字词 对于一个文件集其中一份文件的重要程度。字词的重要性随着它在文件中出 现的次数成正比增加,随着它在语料库中出现的频率下降。注意前后的中心词不一样。 • 词频 (term 阅读全文

posted @ 2018-08-06 15:48 bep_code 阅读(960) 评论(0) 推荐(0)

N-Gram的基本原理
摘要:1.N-Gram的介绍 N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关(这也是隐马尔可夫当中的假设)。整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。通常N-Gram取自文本或语料库。 N=1时称为unigram,N=2称为bi 阅读全文

posted @ 2018-08-06 14:49 bep_code 阅读(11544) 评论(0) 推荐(0)

Python爬虫【五】Scrapy分布式原理笔记
摘要:Scrapy单机架构 在这里scrapy的核心是scrapy引擎,它通过里面的一个调度器来调度一个request的队列,将request发给downloader,然后来执行request请求 但是这些request队列都是维持在本机上的,因此如果要多台主机协同爬取,需要一个request共享的机制— 阅读全文

posted @ 2018-08-02 18:48 bep_code 阅读(1116) 评论(0) 推荐(0)