摘要:
因为在使用write_rich_string的过程中我希望放入长度不一的文本,如下图所示 当长度过长时,write_rich_string函数要求一个一个format1,txt[1],format1,txt[2]........的传入,实在太麻烦。 查看worksheet.py文件,可以看到 可以看 阅读全文
摘要:
最近要标注一大堆语料,为了方便标注,要把触发词在文本中的位置标红,以便辨识。在表格中同一个单元格写入不同的格式文本的文本如下: 最后结果是 阅读全文
摘要:
为了细化齐桓公的朋友圈,又因为与齐桓公相关的人物太多,需要找出与其强相关的人物进行细化。 1、把左传中出现人名的句子中的人名组抽出来 得到如下图所示: 2、编写Apriori函数 3、把含有齐桓公的句子和不含的句子分开,并调用编写的Apriori函数进行关联挖掘,设置支持度为1 pengyou_qi 阅读全文
摘要:
1。监督学习 1.1。广义线性模型 1.1.1。普通最小二乘法 class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1) 1.1.1.1。普通最小二乘 阅读全文
摘要:
上次爬取的爸爸、妈妈、老师和自己的作文,利用sklearn.neighbors.KNeighborsClassifier进行分类。 import jieba import pandas as pd import numpy as np import os import itertools impor 阅读全文
摘要:
python实现关键词共现矩阵,将下图中同时出现的关键词, 转化为下图的共现矩阵。 代码如下: 最后生成的表格如上图,总长度较大,不方便展示,下图大概体现下共现矩阵的信息。 阅读全文
摘要:
接着上篇的说的,爬取了大数据相关的职位信息,http://www.17bigdata.com/jobs/。 词云如图所示: 可以看出有些噪声词没能被去除,比如相关、以上学历等无效词汇。本想通过DF判断停用词,但是我爬的时候没顾及到这个问题,外加本身记录数也不高,就没再找职位信息的停用词。当然也可看出 阅读全文
摘要:
为了练习做文本处理,爬取了99作文网中的作文。beautifulsoup的学习文档http://beautifulsoup.readthedocs.io/zh_CN/latest/。 总共爬了老师,爸爸,妈妈,自己四种作文,爬出如图所示: <其实还爬了大数据招聘网http://www.17bigda 阅读全文
摘要:
import pandas as pd import numpy as np data = pd.read_csv(r'data.csv') train = data.iloc[:,0:4] #计算不同样本之间的欧几里得距离, #如果不同样本数据的刻度不一致,要对数据进行规格化处理 def nearest(traini,center): distance = np.zeros((len... 阅读全文
摘要:
写了识别手写数字的KNN算法,如下图所示。参考链接http://blog.csdn.net/april_newnew/article/details/44176059。 注:训练数据集有2,210条记录,测试数据有670条。准确率并不高,只有0.45。目前不知道为什么,以后多学习,争取优化代码。 阅读全文