会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
一夕思醉
博客园
首页
新随笔
联系
订阅
管理
2020年2月11日
寒假大数据学习笔记十一
摘要: 今天从山西卫健委官网上爬取新型冠状病毒疫情有关内容的数据。到发博客为止我只做了一半,只是将相关文字爬取下来,还没有经过处理。那么主要说一说我碰到的问题吧。主要就是爬取网页的文字内容时受到网页标签的影响,难以规范地取得我想要的内容,影响包括但不限于各种稀奇古怪的位置上出现的换行符、空格、制表符。同时爬
阅读全文
posted @ 2020-02-11 17:39 一夕思醉
阅读(98)
评论(0)
推荐(0)
编辑
公告