随笔分类 - Python练习册
摘要:Scrapy 知识总结 1、安装 1 pip install wheel 2 pip install https://download.lfd.uci.edu/pythonlibs/q5gtlas7/Twisted-19.2.0-cp37-cp37m-win_amd64.whl 3 pip inst
阅读全文
摘要:练习介绍 要求: 本练习需要运用scrapy的知识,爬取豆瓣图书TOP250(https://book.douban.com/top250 )前2页的书籍(50本)的短评数据存储成Excel 书名 评论ID 短评内容 1、创建爬虫项目 1 D:\USERDATA\python>scrapy star
阅读全文
摘要:职友集,搜索到全国上百家招聘网站的最新职位。 https://www.jobui.com/rank/company/ 打开网址后,你会发现:这是职友集网站的地区企业排行榜,里面含有 本月人气企业榜 前10家公司的招聘信息(公司名称、职位、工作地点和招聘要求) 最佳口碑雇主 前10家公司的招聘信息(公
阅读全文
摘要:练习介绍 要求: 请使用Scrapy,爬取当当网2018年图书销售榜单前3页的数据(图书名、作者和书的价格)。 当当网2018年图书销售榜单链接: http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-year-2018-0-1-1
阅读全文
摘要:去薄荷网 爬取每种食物的热量值 URL http://www.boohee.com/food/ 1 from gevent import monkey 2 monkey.patch_all() 3 import gevent,requests,bs4,csv 4 from gevent.queue
阅读全文
摘要:练习介绍 要求: 请使用多协程和队列,爬取时光网电视剧TOP100的数据(剧名、导演、主演和简介),并用csv模块将数据存储下来。 时光网TOP100链接:http://www.mtime.com/top/tv/top100/ 目的: 1.练习掌握gevent的用法 2.练习掌握queue的用法 1
阅读全文
摘要:练习介绍 在第3关的一个课后练习里,我们爬取了指定电影的下载链接;在第6关的一个课后练习里,我们存储了豆瓣TOP250的榜单信息。 现在,我们完善这个程序,每周五在存储的榜单中,随机抽三部电影,然后去爬取这三部电影的下载链接,并把链接的结果发送到邮箱。 这样一来,我们就可以选择一部电影在周末欣赏啦。
阅读全文
摘要:在之前吴氏私厨的基础上,每周五自动爬取下厨房本周最受欢迎的菜谱 1 import requests 2 import time 3 import schedule 4 import smtplib 5 from email.mime.text import MIMEText 6 from email
阅读全文
摘要:自动爬取每日的天气,并定时把天气数据和穿衣提示发送到你的邮箱。 之所以选择这个相对朴实的爬虫项目,是因为天气每天都会有变化,那么在学完这一关之后,不出意外,你就可以在明早收到天气信息了。以此,亲身体验程序的作用。 你还可以把每日的天气和温馨的穿衣提示发送到你的恋人、家人、或朋友的邮箱里,这也是传递心
阅读全文
摘要:要求: 爬取网页你好,蜘蛛侠!中的Python之禅中英文版本,并且打印。 目的: 练习使用selenium爬取动态网页的信息。 练习selenium与BeautifulSoup的搭配使用。 URL https://localprod.pandateacher.com/python-manuscrip
阅读全文
摘要:首先,登录博客人人都是蜘蛛侠。 然后,在文章《未来已来(三)——同九义何汝秀》中,发表一个评论,这个评论中必须要带有“selenium”这个词。 URL https://wordpress-edu-3autumn.localprod.forc.work/wp-login.php spiderman
阅读全文
摘要:我们这次试试用selenium爬取QQ音乐的歌曲评论,我选的歌是《甜甜的》。 https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html 1 from selenium import webdriver 2 import time 3 4 driver = web
阅读全文
摘要:练习介绍 【程序功能】 我们将完成一个和语义识别相关的爬虫程序,输入任意词汇、句子、文章或段落,会返回联想的词汇。 【背景信息】 有一个非常牛的处理语言的网站nlpir,上面有非常多的处理语言的功能(如分词标注、情感分析、相关词汇)。 举个例子,我输入“音乐剧”: 然后点击“Word2vec”(返回
阅读全文
摘要:练习介绍 学了爬虫这么久,想不想接触下AI,创建一个可以聊天的机器人呀٩̋(๑˃́ꇴ˂̀๑) 要求: 实现功能:利用图灵机器人官网http://www.tuling123.com/的接口,创建一个可以聊天的机器人 1 import requests 2 import json 3 # https:/
阅读全文
摘要:练习介绍 想不想自己动手做个翻译器呢,一点都不难哦~ 就用你学过的post和json,一起试试爬取有道翻译自制翻译器吧ლ(^ω^ლ) 要求 实现功能:用户输入英文或中文,程序即可打印出来对应的译文。 ps:这个练习不看帮助是完不成了, 1、url去掉_o 2、post数据添加'typoResult'
阅读全文
摘要:练习介绍 要求: 在本练习,我们会借助cookies的相关知识,使用Python登录饿了么网站,爬取自己家附近的餐厅列表。 网站地址:https://www.ele.me/home/ 目的: 练习掌握cookies和session的用法 练习post和get请求 练习json数据的解析提取 反爬虫应
阅读全文
摘要:本文记录学习 cookies 和 session 的一些小练习和知识点 知识点1 cookies 和 session 的由来 HTTP协议是无状态的协议,因为一旦浏览器和服务器之间的请求和响应完毕后,两者就会立马断开,也就是恢复成无状态。 这样就会导致一个问题,服务器永远无法辨认,也记不住用户的信息
阅读全文
摘要:先说下,我可以说完全没有看题目要求,我只看了下扇贝网的单词测试工具就开始编码了,写出来的代码尽可能的模仿了网站上的效果。 因为把问题搞复杂了,在这个练习上耽误了很长时间,最后都不想写了,所以代码有些混乱,也没有注释。 后面会把代码重新整理一下,既满足了课程的要求,又包含网站上的那些功能。 利用扇贝网
阅读全文
摘要:爬取知乎大v张佳玮的文章“标题”、“摘要”、“链接”,并存储到本地文件 下面截图是有一次只爬了一页的结果
阅读全文
摘要:解决14中csv用excel打开乱码的问题 ,其实就是在写csv的时候把 utf-8 改成 utf-8-sig open('zhihu.csv','w',newline='',encoding='utf-8-sig') 这个和csv文件的bom有关,参考下面信息 下面是在练习14的基础上改一下编码,
阅读全文