摘要:
jieba安装: 下载安装包,官网地址:https://pypi.org/project/jieba// 本人网盘链接:https://pan.baidu.com/s/1ufgUyYPaBv2NTUvwybH1Ew 提取码:nxed 解压安装: 首先压到任意目录 打开cmd命令行窗口并切换到jieb 阅读全文
摘要:
参考德拓视频学习:http://113.31.104.47/portal/#/course/courseDetail/b34d160db64624732ef152a1118af11a?courseId=1b7e84f4eb8552536e2267093dbd7972 kettle安装:下载包直接解压 阅读全文
摘要:
准备工作: 1.视频教学http://113.31.104.47/portal/#/course/dashboard/b34d160db64624732ef152a1118af11a 2.DataX的安装部署https://www.cnblogs.com/qingyunzong/p/9759993. 阅读全文
摘要:
# 进入浏览器设置options = webdriver.ChromeOptions()# 设置中文options.add_argument('lang=zh_CN.UTF-8')# 更换头部options.add_argument('user-agent="Mozilla/5.0 (Windows 阅读全文
摘要:
多线程和多进程概述:当计算机运行程序时,就会创建包含代码和状态的进程。这些进程会通过计算机的一个或多个CPU执行。不过,同一时刻一个CPU只能执行一个进程,然后在不同进程间快速切换,这样就给人以多个程序同时运行的感觉。同理,在一个进程中,程序的执行也是在不同线程间进行切换的,每个线程执行程序的不同部 阅读全文
摘要:
遇到的问题: 目标div块循环中,有其它杂div,如何排除? 解决方法: for i in range(1, 40, 2): infos = selector.xpath('//*[@id="kb_list"]/div[{}]'.format(str(i))) for info in infos: 阅读全文
摘要:
问题描述: 新打开的页面url不变,只是网页内容变了,然后使用drive.page_source得到的都是第一页的html代码,并不是当前页面的html代码。 1. 原因:webdriver仍默认在原页面下获取标签等信息; 解决方法:采用切换页面句柄的方式解决; #获取当前页面句柄 normal_w 阅读全文
摘要:
问题:selenium已经放弃PhantomJS,建议使用火狐或者谷歌无界面浏览器。 解决方案1: selenium版本降级 通过pip install selenium默认安装版本。 (通过pip show selenium显示版本)将其卸载pip uninstall selenium,重新安装并 阅读全文
摘要:
问题: 换页url不边,Ajax加载,于是进行抓包: 可是发现换页的时候Request URL也不变(看很多类似教程都是找url变化规律) 这时候我选择使用selenium和Chrome配合,模拟浏览器输入页数获得网页: 源代码: from lxml import etreeimport reque 阅读全文
摘要:
1.首先登录搜狗网http://sa.sogou.com/new-weball/page/sgs/epidemic?type_page=pcpop 2.刷新找到数据https://lspengine.map.sogou.com/coronavirus/epidemic/search/area/inf 阅读全文