摘要: 最近在处理项目组的一个数据集,数据量每张表在百万级,由于数据量较大在数据下载和处理方面都可以说是旷日持久,这篇记录一下相关的经验。 数据下载 拿到的数据是在远程数据库里面,原先打算直接从远程库里下载csv或txt到电脑上,但在mysql上进行这样的操作好像不是很方便速度也很慢。 目前在使用的方法是将 阅读全文
posted @ 2020-08-13 10:46 TVHead 阅读(653) 评论(0) 推荐(0) 编辑
摘要: 爬取的网站是浙江水利局的台风路径网站,在该网站不仅可以查看当前正在发生的台风实况,还可以查看已发生过的台风的历史路径。该网站是动态加载的,但本文使用requests进行爬取。 阅读全文
posted @ 2020-07-29 11:36 TVHead 阅读(608) 评论(0) 推荐(0) 编辑
摘要: 这次任务是获取猫眼电影排行前一百页电影的信息,其中涉及滑块验证和动态加密。 阅读全文
posted @ 2020-07-21 16:13 TVHead 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 用Selenium爬取aliexpress的商品信息,并将结果存入MySQL中 阅读全文
posted @ 2020-06-13 23:24 TVHead 阅读(2912) 评论(0) 推荐(0) 编辑
摘要: 最近帮老师申自科项目需要涉及图卷积网络,paper和各种帖子看了不少,这里做个记录 阅读全文
posted @ 2020-06-08 10:31 TVHead 阅读(200) 评论(0) 推荐(0) 编辑
摘要: MySQL连接和管理的一些基本操作 阅读全文
posted @ 2020-02-16 18:25 TVHead 阅读(188) 评论(0) 推荐(0) 编辑