摘要:
数据源: df= pd.DataFrame({'k1': [ 's1']* 3 + ['s2']* 5,'k2' : [1, 1, 2, 3, 3, 4, 4,4]}) df 1 重复值判断和查看 df.duplicated(subset=None, keep='first') 功能: 指定列数据重 阅读全文
摘要:
一、案例场景 字段login_place,一共267725行记录,随机15条记录如下: 后续数据分析工作需要用到地理维度进行分析,所以需要把login_place字段进行拆分成:国家、省份、地区。 二、初步方案 第三方中文分词库:jieba,可以对文本进行拆分。使用参考资料:jieba库的使用。 初 阅读全文