摘要: 职友集,搜索到全国上百家招聘网站的最新职位。 https://www.jobui.com/rank/company/ 打开网址后,你会发现:这是职友集网站的地区企业排行榜,里面含有 本月人气企业榜 前10家公司的招聘信息(公司名称、职位、工作地点和招聘要求) 最佳口碑雇主 前10家公司的招聘信息(公 阅读全文
posted @ 2019-05-11 23:58 三角形 阅读(1035) 评论(0) 推荐(0) 编辑
摘要: 练习介绍 要求: 请使用Scrapy,爬取当当网2018年图书销售榜单前3页的数据(图书名、作者和书的价格)。 当当网2018年图书销售榜单链接: http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-year-2018-0-1-1 阅读全文
posted @ 2019-05-11 23:54 三角形 阅读(1074) 评论(0) 推荐(0) 编辑
摘要: 去薄荷网 爬取每种食物的热量值 URL http://www.boohee.com/food/ 1 from gevent import monkey 2 monkey.patch_all() 3 import gevent,requests,bs4,csv 4 from gevent.queue 阅读全文
posted @ 2019-05-11 23:51 三角形 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 练习介绍 要求: 请使用多协程和队列,爬取时光网电视剧TOP100的数据(剧名、导演、主演和简介),并用csv模块将数据存储下来。 时光网TOP100链接:http://www.mtime.com/top/tv/top100/ 目的: 1.练习掌握gevent的用法 2.练习掌握queue的用法 1 阅读全文
posted @ 2019-05-11 23:49 三角形 阅读(698) 评论(0) 推荐(0) 编辑
摘要: 练习介绍 在第3关的一个课后练习里,我们爬取了指定电影的下载链接;在第6关的一个课后练习里,我们存储了豆瓣TOP250的榜单信息。 现在,我们完善这个程序,每周五在存储的榜单中,随机抽三部电影,然后去爬取这三部电影的下载链接,并把链接的结果发送到邮箱。 这样一来,我们就可以选择一部电影在周末欣赏啦。 阅读全文
posted @ 2019-05-11 23:48 三角形 阅读(1019) 评论(0) 推荐(0) 编辑
摘要: 在之前吴氏私厨的基础上,每周五自动爬取下厨房本周最受欢迎的菜谱 1 import requests 2 import time 3 import schedule 4 import smtplib 5 from email.mime.text import MIMEText 6 from email 阅读全文
posted @ 2019-05-11 23:45 三角形 阅读(602) 评论(0) 推荐(0) 编辑
摘要: 自动爬取每日的天气,并定时把天气数据和穿衣提示发送到你的邮箱。 之所以选择这个相对朴实的爬虫项目,是因为天气每天都会有变化,那么在学完这一关之后,不出意外,你就可以在明早收到天气信息了。以此,亲身体验程序的作用。 你还可以把每日的天气和温馨的穿衣提示发送到你的恋人、家人、或朋友的邮箱里,这也是传递心 阅读全文
posted @ 2019-05-11 23:43 三角形 阅读(730) 评论(0) 推荐(0) 编辑
摘要: 要求: 爬取网页你好,蜘蛛侠!中的Python之禅中英文版本,并且打印。 目的: 练习使用selenium爬取动态网页的信息。 练习selenium与BeautifulSoup的搭配使用。 URL https://localprod.pandateacher.com/python-manuscrip 阅读全文
posted @ 2019-05-11 23:42 三角形 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 首先,登录博客人人都是蜘蛛侠。 然后,在文章《未来已来(三)——同九义何汝秀》中,发表一个评论,这个评论中必须要带有“selenium”这个词。 URL https://wordpress-edu-3autumn.localprod.forc.work/wp-login.php spiderman 阅读全文
posted @ 2019-05-11 23:40 三角形 阅读(542) 评论(0) 推荐(0) 编辑
摘要: 我们这次试试用selenium爬取QQ音乐的歌曲评论,我选的歌是《甜甜的》。 https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html 1 from selenium import webdriver 2 import time 3 4 driver = web 阅读全文
posted @ 2019-05-11 23:38 三角形 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 练习介绍 【程序功能】 我们将完成一个和语义识别相关的爬虫程序,输入任意词汇、句子、文章或段落,会返回联想的词汇。 【背景信息】 有一个非常牛的处理语言的网站nlpir,上面有非常多的处理语言的功能(如分词标注、情感分析、相关词汇)。 举个例子,我输入“音乐剧”: 然后点击“Word2vec”(返回 阅读全文
posted @ 2019-05-11 23:31 三角形 阅读(694) 评论(0) 推荐(0) 编辑
摘要: 练习介绍 学了爬虫这么久,想不想接触下AI,创建一个可以聊天的机器人呀٩̋(๑˃́ꇴ˂̀๑) 要求: 实现功能:利用图灵机器人官网http://www.tuling123.com/的接口,创建一个可以聊天的机器人 1 import requests 2 import json 3 # https:/ 阅读全文
posted @ 2019-05-11 23:28 三角形 阅读(454) 评论(0) 推荐(0) 编辑
摘要: 练习介绍 想不想自己动手做个翻译器呢,一点都不难哦~ 就用你学过的post和json,一起试试爬取有道翻译自制翻译器吧ლ(^ω^ლ) 要求 实现功能:用户输入英文或中文,程序即可打印出来对应的译文。 ps:这个练习不看帮助是完不成了, 1、url去掉_o 2、post数据添加'typoResult' 阅读全文
posted @ 2019-05-11 23:24 三角形 阅读(800) 评论(0) 推荐(0) 编辑
摘要: 练习介绍 要求: 在本练习,我们会借助cookies的相关知识,使用Python登录饿了么网站,爬取自己家附近的餐厅列表。 网站地址:https://www.ele.me/home/ 目的: 练习掌握cookies和session的用法 练习post和get请求 练习json数据的解析提取 反爬虫应 阅读全文
posted @ 2019-05-11 23:21 三角形 阅读(675) 评论(0) 推荐(0) 编辑