摘要: 爬虫系列:穿越网页表单与登录窗口进行采集 上一期我们讲解了数据标准化相关内容,首先对单词出现的频率进行排序,之后对一些大小写进行转换,缩小 2-gram 序列的重复内容。 当我们真正迈出网络数据采集基础之门的时候,遇到的第一个问题可能是:“我怎么获取登录窗口背后的信息呢?”今天,网络正在朝着页面交互、社交媒体、用户产生内容的趋势不断地演进。 阅读全文
posted @ 2022-01-12 10:47 爬虫程序大魔王 阅读(658) 评论(0) 推荐(1) 编辑
摘要: 爬虫系列:数据标准化 上一期我们介绍了使用 Python 数据清洗的相关方法,本篇文章我们介绍数据标准化的相关方法。 每个人都会遇到一些样式设计不够人性化的网页,比如“请输入你的电话号码,号码格式为 xxx-xxxx-xxxx”。 作为一名优秀的程序员,你可能会问:”为什么不自动对输入的数据进行清洗,去掉非数字内容,然后 阅读全文
posted @ 2022-01-12 10:18 爬虫程序大魔王 阅读(93) 评论(0) 推荐(0) 编辑