摘要: 分三部分:关键字提取,利用机器学习算法实现文本分类,获取行政区划编码,数据下钻后续再说 关键字提取:利用jieba分词实现读取数据库的某一列,并对该列分词。 import pymysql import pandas as pd from jieba.analyse import extract_ta 阅读全文
posted @ 2024-03-06 21:21 cojames 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 一、 原始数据: 二、 地域维度标准化: 地域属性在科技成果分析中作为一个重要维度,其标准取值非常必要,目前我国采用的标准行政区划代码由两部分组成,一部分为行政区划编码,六位数字组成,前两位表示省编码,中间两位代表市编码,后两位表示所属市的区或县编码。一部分为行政区划名称。两部分在数据分析中经常用到 阅读全文
posted @ 2024-03-06 21:14 cojames 阅读(61) 评论(0) 推荐(0) 编辑