ifran - 博客园

pandas待填坑

摘要： 1、 cannot do slice indexing on Index with these indexers [3] of type intdf如下: 当使用callable索引时，报错 cannot do slice indexing on Index with these indexers 阅读全文

posted @ 2021-11-20 17:29 ifran 阅读(564) 评论(0) 推荐(0)

ip被禁用后复活---解决418报错

摘要：爬豆瓣长评时，突然不能继续爬取了。response.status_code返回为418，get_html(utl)返回ip不能用了。解决：status_code报错后，设置等待时间 count=0 while status_code!=200: count+=1 time.sleep(count* 阅读全文

posted @ 2020-03-01 17:50 ifran 阅读(1295) 评论(0) 推荐(0)

sys设置递归深度

摘要：发现了一个练习爬虫的网站GlidedSky 过完了第一关，第二关需要爬取1000个网页，爬取到第956个网页时报错： RecursionError: maximum recursion depth exceeded while calling a Python object 解决方法： import 阅读全文

posted @ 2020-02-18 23:03 ifran 阅读(334) 评论(0) 推荐(0)

ajax爬取今日头条街拍图片——data出现none的解决

摘要：之前爬取总是出现如图的结果：手动打开url显示的是想要的结果，但是爬取的时候data为空尝试了多种方法，偶然得到了想要的结果：这是多次实验中成功与不成功结果中构造的url 发现 1）得到想要结果，所构造的url中keyword=******与下一参数间没有&链接 2）同样的keyword=%E8 阅读全文

posted @ 2020-02-02 18:03 ifran 阅读(731) 评论(2) 推荐(0)

爬虫--数据存储小问题总结

摘要： with open(path,'w',newline=''): #解决当写入csv文件时出现空行的问题 ... json.dumps(obj,ensure_ascii='False') #使写入的中文字符能正常读出阅读全文

posted @ 2020-01-28 19:45 ifran 阅读(208) 评论(0) 推荐(0)

json转化为csv文件打开时，中文乱码

摘要：三种方法：法一用笔记本打开csv文件，在笔记本中选择“文件”-->“另存为”。设置编码类型为‘utf-8' 法二在打开的excel页面中，选择“文件”菜单-->选项-->语言设置为简体中文法三 1.数据-->从文本 2.依此设置。文件格式设置为 “无（常规）” 附json->csv代码： i 阅读全文

posted @ 2020-01-28 19:37 ifran 阅读(1773) 评论(0) 推荐(0)

爬虫出现乱码的一个特例

摘要：爬取猫眼电影排行，无法正常显示中文，出现乱码 response.text响应总是乱码找了许多种方法，python爬虫解决gbk乱码问题、python爬虫的中文乱码问题？ - 知乎发现，在爬取百度[https://www.baidu.com/]时出现乱码，通过编码->解码， import requ 阅读全文

posted @ 2020-01-26 18:45 ifran 阅读(530) 评论(0) 推荐(0)

fake_useragent库—随机生成请求头

摘要： ua=UserAgent() 对象实例化 ua.chrome 生成谷歌浏览器的对象 ua.firefox import requests from fake_useragent import UserAgent url='https://maoyan.com/board/4?offset=0' u 阅读全文

posted @ 2020-01-22 22:08 ifran 阅读(350) 评论(0) 推荐(0)

爬取网站出现高频关键词

摘要： import requests from bs4 import BeautifulSoup import jieba #爬取页面代码并解析 def get_html(url): try: response=requests.get(url) response.raise_for_status res 阅读全文

posted @ 2019-12-10 20:31 ifran 阅读(873) 评论(0) 推荐(0)

python爬虫的问题

摘要： * 保存图片失败 1.打错单词 e.g: ptyhon-->python 2.之前正则提取时转义字符的遗忘 e.g: re.compile(r'src="http:aaaaa/.jpg"')-->re.compile(r'src="http:aaaaa/\.jpg"') 阅读全文

posted @ 2019-09-26 13:30 ifran 阅读(146) 评论(0) 推荐(0)