摘要: 数据源: df= pd.DataFrame({'k1': [ 's1']* 3 + ['s2']* 5,'k2' : [1, 1, 2, 3, 3, 4, 4,4]}) df 1 重复值判断和查看 df.duplicated(subset=None, keep='first') 功能: 指定列数据重 阅读全文
posted @ 2021-06-15 15:35 Lu-顺 阅读(1491) 评论(0) 推荐(0) 编辑
摘要: 一、案例场景 字段login_place,一共267725行记录,随机15条记录如下: 后续数据分析工作需要用到地理维度进行分析,所以需要把login_place字段进行拆分成:国家、省份、地区。 二、初步方案 第三方中文分词库:jieba,可以对文本进行拆分。使用参考资料:jieba库的使用。 初 阅读全文
posted @ 2021-06-15 11:55 Lu-顺 阅读(797) 评论(0) 推荐(1) 编辑