上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 64 下一页
摘要: 使用pandas在做“与”操作时,居然要将各自的条件使用括号🔗起来,不知是何原因 x = new_df[(new_df['query_position'].isin(job_list)) & (new_df['job_position'].isin(job_list)) & (new_df['pa 阅读全文
posted @ 2020-12-01 10:52 今夜无风 阅读(73) 评论(0) 推荐(0) 编辑
摘要: 今天恶补一下遗留的知识点,在sh文件中,注意以下几点: 1)首行最好加上:#!/bin/bash 2)$0 就是你写的shell脚本本身的名字,$1 是你给你写的shell脚本传的第一个参数,$2 是你给你写的shell脚本传的第二个参数 例子, 新建test.sh: #!/bin/sh expor 阅读全文
posted @ 2020-11-26 11:16 今夜无风 阅读(451) 评论(0) 推荐(0) 编辑
摘要: 数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理,对应着两种截然不同的计算模式:批量计算和实时计算。批量计算以“静态数据”为对象,可以在很充裕的时间内对海量数据进行批量处理,计算得到有价值的信息。Hadoop就是典型的批处理模型,由HDFS和HBase存放大量的静态数据,由MapRedu 阅读全文
posted @ 2020-11-11 21:00 今夜无风 阅读(766) 评论(0) 推荐(0) 编辑
摘要: 最近在做文本分类任务,由于在实际工程中需要用服务对外提供功能,故采用java调用pb模型完成推理,特将过程记录如下: 1. transform文本分类 package com.techwolf.transformer; import com.alibaba.fastjson.*; import co 阅读全文
posted @ 2020-10-30 17:30 今夜无风 阅读(2047) 评论(2) 推荐(0) 编辑
摘要: 默认bert是ckpt,在进行后期优化和部署时,savedmodel方式更加友好写。 train完成后,调用如下函数: def save_savedmodel(estimator, serving_dir, seq_length, is_tpu_estimator): feature_map = { 阅读全文
posted @ 2020-10-28 18:26 今夜无风 阅读(1878) 评论(1) 推荐(1) 编辑
摘要: def test(): file_path = r'./data/0914/position_predict_100.txt' save_path = r'./data/0914/position_predict_100.json' save_dict = {} with open(file_pat 阅读全文
posted @ 2020-10-27 13:41 今夜无风 阅读(318) 评论(0) 推荐(0) 编辑
摘要: nlp业务中,无可避免地要使用词向量做特征构建,维度过大导致计算量复杂,在百万级数据处理中速度非常慢,为了权衡工程需要,我们要根据实际情况做选取。我对比了不同纬度在使用上的效果,确定一个合理的范围,供大家根据自己的业务操作。 wv.most_similar(['主管'], topn=30) dim= 阅读全文
posted @ 2020-10-23 20:22 今夜无风 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 使用pandas df = pd.read_csv(file_path, sep='\t', header=None) a = df.drop_duplicates(subset=[0], keep='first') b = df.drop_duplicates(subset=[0], keep=F 阅读全文
posted @ 2020-10-23 16:05 今夜无风 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 1.词向量训练demo from gensim.models import Word2Vec from gensim.test.utils import common_texts import jieba import tqdm word2vec_path = './resources/word2v 阅读全文
posted @ 2020-10-22 13:05 今夜无风 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu 阅读全文
posted @ 2020-10-22 12:35 今夜无风 阅读(237) 评论(0) 推荐(0) 编辑
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 64 下一页