摘要:
使用pandas在做“与”操作时,居然要将各自的条件使用括号🔗起来,不知是何原因 x = new_df[(new_df['query_position'].isin(job_list)) & (new_df['job_position'].isin(job_list)) & (new_df['pa 阅读全文
摘要:
今天恶补一下遗留的知识点,在sh文件中,注意以下几点: 1)首行最好加上:#!/bin/bash 2)$0 就是你写的shell脚本本身的名字,$1 是你给你写的shell脚本传的第一个参数,$2 是你给你写的shell脚本传的第二个参数 例子, 新建test.sh: #!/bin/sh expor 阅读全文
摘要:
数据总体上可以分为静态数据和流数据。对静态数据和流数据的处理,对应着两种截然不同的计算模式:批量计算和实时计算。批量计算以“静态数据”为对象,可以在很充裕的时间内对海量数据进行批量处理,计算得到有价值的信息。Hadoop就是典型的批处理模型,由HDFS和HBase存放大量的静态数据,由MapRedu 阅读全文
摘要:
最近在做文本分类任务,由于在实际工程中需要用服务对外提供功能,故采用java调用pb模型完成推理,特将过程记录如下: 1. transform文本分类 package com.techwolf.transformer; import com.alibaba.fastjson.*; import co 阅读全文
摘要:
默认bert是ckpt,在进行后期优化和部署时,savedmodel方式更加友好写。 train完成后,调用如下函数: def save_savedmodel(estimator, serving_dir, seq_length, is_tpu_estimator): feature_map = { 阅读全文
摘要:
def test(): file_path = r'./data/0914/position_predict_100.txt' save_path = r'./data/0914/position_predict_100.json' save_dict = {} with open(file_pat 阅读全文
摘要:
nlp业务中,无可避免地要使用词向量做特征构建,维度过大导致计算量复杂,在百万级数据处理中速度非常慢,为了权衡工程需要,我们要根据实际情况做选取。我对比了不同纬度在使用上的效果,确定一个合理的范围,供大家根据自己的业务操作。 wv.most_similar(['主管'], topn=30) dim= 阅读全文
摘要:
使用pandas df = pd.read_csv(file_path, sep='\t', header=None) a = df.drop_duplicates(subset=[0], keep='first') b = df.drop_duplicates(subset=[0], keep=F 阅读全文
摘要:
1.词向量训练demo from gensim.models import Word2Vec from gensim.test.utils import common_texts import jieba import tqdm word2vec_path = './resources/word2v 阅读全文
摘要:
对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu 阅读全文