01 2020 档案

摘要:今天将爬下来的数据清洗了清洗,这些数据中存在一些重复数据,应该是北京市政官网的数据库有点问题。 清洗完我才发现,其实可以直接用navicat导入。将original_id这个字段设置为主键,直接就能将重复数据剔除。 今天还尝试爬取信件的具体内容以及完成了部分信件数据可视化的内容。 阅读全文
posted @ 2020-01-30 16:07 星辰° 阅读(97) 评论(0) 推荐(0) 编辑
摘要:这几天一直在弄电脑,不止win10出现了一点小毛病,虚拟机也出了点问题。这几天看了一点点python的多线程,改了改爬信件的脚本。 脚本运行时间在2分钟左右是因为模拟Ajax请求获取数据比较费时,一个完整的数据交换(1000条)在4s左右,写入文件的时间很少可以忽略不记。由于之前的脚本是顺序执行,爬 阅读全文
posted @ 2020-01-29 11:27 星辰° 阅读(287) 评论(0) 推荐(0) 编辑
摘要:今年过年真的是一点年味都没有了。因为疫情形势比较严峻,我们这里要求不要出去走亲访友。其实这样也好,不出去又安全又省事,在家里待着就能为国家做贡献。 昨天和今天看了点python,然后试着做了做爬取北京市政百姓信件的实验。 北京市政百姓信件列表的官网已经改变,用实验要求里给的网站只会显示无法打开该网页 阅读全文
posted @ 2020-01-27 13:05 星辰° 阅读(463) 评论(0) 推荐(0) 编辑