随笔分类 - python爬虫
python爬虫
摘要:import requests as r from lxml import etree import re,os,random,time url='http://xxx.com/xx' res=r.get(url) html=etree.HTML(res.text) title=html.xpath
阅读全文
摘要:import os ... fname='xxx.csv' if not os.path.exists(fname): #文件存在则写表头 header默认=True df.to_csv(fname,mode='a',encoding='utf-8-sig',index=False,index_la
阅读全文
摘要:https://www.cnblogs.com/linchenguang/p/14872067.html def crawler(): # 设置cookie cookie = '''cisession=19dfd70a27ec0e t_f805f7762a9a237a0deac37015e9f6d9
阅读全文
摘要:一、工具(option)——设置(setting)—— https—— 动作(actions)—— (open windows certificate manger)—— 搜索(fiddler)删除所有查出来的证书 (一般是Do_Not_fiddler.cer之类的)全删除即可。 二、回到Fiddl
阅读全文
摘要:win32api.keybd_event 该函数原型:keybd_event(bVk, bScan, dwFlags, dwExtraInfo) 第一个参数:虚拟键码(键盘键码对照表见附录); 第二个参数:硬件扫描码,一般设置为0即可; 第三个参数:函数操作的一个标志位,如果值为KEYEVENTF_
阅读全文
摘要:报错“The result of the xpath expression is: [object Attr]. It should be an element” yutube爬虫动态加载,需要用到selenium-webdriver,使用过程中,首先使用 find_elements_by_xpat
阅读全文
摘要:1.selenium用pip安装: 2.chromedriver的安装 【安装须知】chromedriver 必须与 Chrome 版本一致,不然就不起作用。可在谷歌浏览器地址栏中输入以下代码查看:chrome://version/ chromedriver普通全版有两个下载地址: a、http:/
阅读全文
摘要:1.建立项目: 2.进入项目目录: 3.建立域名任务: cmd全程记录: 4.pycharm打开项目,建立用于调试的文件:main.py 用到的函数解析:https://www.cnblogs.com/chenxi188/p/10876690.html main.py: 查看页面,确定需要解析哪些数
阅读全文
摘要:源https://www.jianshu.com/p/7c1a084853d8 开始前的准备工作: 1.MySQL下载:点我2.python MySQL驱动下载:pymysql(pyMySql,直接用pip方式安装) 3.全部安装好之后,我们来熟悉一下pymysql模块 一、确定items 我们要爬
阅读全文
摘要:选择属性为href的值: <a class='test' href='www.baidu.com' >test</a>
阅读全文
摘要:(目录结构如上图) 在主目录中加入main.py,在其中加入代码,运行此文件就可以运行整个爬虫:
阅读全文
摘要:pycharm调试技巧:调试时,请求一次,下次直接调试,不必每次都启动整个爬虫,重新请求一整遍 【用法】cmd命令运行:scrapy shell 网址 第一步,cmd进行一次请求: 返回详情: C:\Users\Administrator>scrapy shell http://blog.jobbo
阅读全文