上一页 1 ··· 5 6 7 8 9 10 11 下一页
摘要: #coding=utf-8 import MySQLdb db = MySQLdb.connect("IP","用户名","密码","库名",charset = 'utf8') cursor = db.cursor() f = open("文件名.txt", "r") i = 1000000001 for eachline in f: sql = "INSERT INTO 表名(... 阅读全文
posted @ 2017-06-06 14:09 右介 阅读(19617) 评论(0) 推荐(0) 编辑
摘要: 循环查询一个列表中词的个数: 插入一条数据: 阅读全文
posted @ 2017-06-06 10:56 右介 阅读(3925) 评论(0) 推荐(0) 编辑
摘要: 最近需要计算制造业领域大词表每个词的idf,词表里一共九十多万个词,语料一共三百七十多万篇分词后文献。最开始尝试用程序词表循环套语料循环得到每个词的idf,后来又尝试把语料存入mysql然后建立全文索引再循环用sql语句去查每个词的idf,效率都十分不理想。 最新的想法是利用solr搜索引擎的速度来 阅读全文
posted @ 2017-06-05 18:29 右介 阅读(2961) 评论(0) 推荐(0) 编辑
摘要: 临时修改:mysql>set global max_allowed_packet=524288000;修改 #512M 这条语句可以在小黑窗里执行,也可以在navicat查询新建查询里执行。 阅读全文
posted @ 2017-06-05 17:37 右介 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 打开windows防火墙,打开高级设置 1. 入站规则设置 ① 选择入站规则,然后新建规则,选择端口,然后下一步 ② 选择TCP,选择特定端口,然后输入端口,如有多个端口需要用逗号隔开了 例如: 3306 ③ 选择允许连接 ④ 选择配置文件 ⑤ 输入规则名称 mysqlport 2. 出站规则设置  阅读全文
posted @ 2017-06-05 17:31 右介 阅读(4004) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*- import gensim # 导入模型 model = gensim.models.KeyedVectors.load_word2vec_format('vectors.bin', binary=True) # 得到两组词的相似度 list1 = [u'核能'] list2 = [u'电能'] list3 = [u'电力'] list... 阅读全文
posted @ 2017-05-31 10:34 右介 阅读(13105) 评论(2) 推荐(0) 编辑
摘要: 经理让我把word2vec训练后得到的bin文件转为txt文件,目前还不知道txt文件用来干什么。其实word2vec训练语料时可以选择训练处出bin文件或者txt文件,但是训练出bin文件时过程太漫长,我怕直接训练出txt文件也一样慢,所以还是自己想办法做这个事情了。 我用到了gensim,这个需 阅读全文
posted @ 2017-05-31 10:13 右介 阅读(7015) 评论(0) 推荐(0) 编辑
摘要: ,?、。“”《》!,:;?人民末##末啊阿哎哎呀哎哟唉俺俺们按按照吧吧哒把罢了被本本着比比方比如鄙人彼彼此边别别的别说并并且不比不成不单不但不独不管不光不过不仅不拘不论不怕不然不如不特不惟不问不只朝朝着趁趁着乘冲除除此之外除非除了此此间此外从从而打待但但是当当着到得的的话等等等地第叮咚对对于多多少而 阅读全文
posted @ 2017-05-31 09:38 右介 阅读(12201) 评论(0) 推荐(1) 编辑
摘要: 在Linux上安装好word2vec, 进入trunk文件夹,把分词后的语料文件放在trunk文件夹内,执行:./word2vec -train tt.txt -output vectors.bin -cbow 1 -size 80 -window 5 -negative 80 -hs 0 -sam 阅读全文
posted @ 2017-05-26 16:13 右介 阅读(2202) 评论(0) 推荐(0) 编辑
摘要: 最近在Linux里做文件合并,做分词,磁盘空间不够,把扩展磁盘空间方法记录一下。 1.在VirtualBox安装路径下(例如C:\Program Files\Oracle\VirtualBox>)打开windows小黑窗 执行: VBoxManage modifyhd e:\vbox\Ubuntu1 阅读全文
posted @ 2017-05-26 15:15 右介 阅读(4797) 评论(0) 推荐(1) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 下一页