摘要: 到目前,我还没涉及到图像处理的方面,不过之前听龙华兄提起国内只有少数几家公司具备这样的技术,包括face++,腾讯,阿里等等。 自己结合以前在信息安全部门做反垃圾的经验来看,做了一些自己的思考。 活体检测本身是一个反欺诈问题,最主要的就是针对照片欺诈,如果没有活体检测,单纯由照片就可以进行欺骗性的人 阅读全文
posted @ 2018-11-04 16:24 yjy888 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 1、word2vec参数详解 · sentences:可以是一个·ist,对于大语料集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建。· sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。· size:是指特征向量的维 阅读全文
posted @ 2018-11-02 14:25 yjy888 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 10.1 分词问题: ('钱收错了,怎么办?\n' '钱收错了 怎么办' ('钱什么时候到账?\n' '钱 什么时候 到账' 因为使用了hmm模型,会自动识别新词 ('配方卡支持吗?\n' '配方 卡 支持' '寄养卡怎么弄?(购物卡)\n' '寄养 卡 怎么弄 购物 卡' 添加自定义词库 ('那手 阅读全文
posted @ 2018-11-01 16:30 yjy888 阅读(118) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-11-01 16:28 yjy888 阅读(11) 评论(1) 推荐(0) 编辑
摘要: 测试文件在result下面, 1、word2vec还需要丰富训练数据,去噪音,加入博客,新增加预处理的方法。 2、建立评估准确率和召回率的机制 3、去除停用词是不是去多了,增加原文打印的结果 4、原文521条,最终应跑出(521*520)/2对 阅读全文
posted @ 2018-11-01 08:50 yjy888 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 1.“句向量”简介word2vec提供了高质量的词向量,并在一些任务中表现良好。 关于word2vec的原理可以参考这几篇论文: https://arxiv.org/pdf/1310.4546.pdfhttps://arxiv.org/pdf/1301.3781.pdf关于如何使用第三方库gensi 阅读全文
posted @ 2018-10-31 09:13 yjy888 阅读(598) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-10-30 17:44 yjy888 阅读(1) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-10-30 09:10 yjy888 阅读(5) 评论(0) 推荐(0) 编辑
摘要: When to use FastText? The main principle behind fastText is that the morphological structure of a word carries important information about the meaning 阅读全文
posted @ 2018-10-29 10:36 yjy888 阅读(102) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-10-29 09:25 yjy888 阅读(1) 评论(0) 推荐(0) 编辑