爬虫视频讲座

爬虫 视频讲座

[Scrapy 爬蟲] 什麼是Scrapy以及為什麼要用Scrapy 爬取網頁?

YouTube https://www.youtube.com/watch?v=0pWJHy_fNWA
2016年1月31日发布
透過 Scrapy 網路爬蟲框架,我們就可以在不用重造輪子的情況下撰寫較為完整且具非同步化(asynchronous)請求能力的網路爬蟲。
安裝步驟:

下載並安裝 Anaconda Python
在Anaconda Command Prompt 鍵入 pip install scrapy
開啟爬蟲專案: scrapy startproject apple

網路爬蟲實戰教學 25集的一个系列教学

YouTube https://www.youtube.com/playlist?list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF

1. 什麼是網路爬蟲?

YouTube https://www.youtube.com/watch?v=ceUhb2-gYOU&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF
2015年4月13日发布
爬蟲? 這不是在看動物星球,而是一種利用HTTP Request 抓取網路資料的技術。想想看如果你要做個比價網站或資料分析,但苦無資料的時候,又來不及跟別人談資料交換或合作時,就可以利用這種技術將別人的資料庫變成自己的資料庫,聽起來很迷人嗎?趕快來了解一下。

什麼是網路爬蟲?
開始使用Python撰寫網路爬蟲 (Crawler)
如何使用GET 抓取網頁內容?
如何使用Python 套件: BeautifulSoup4 剖析網頁內容?
如何使用Python 的requests 及BeautifulSoup4 完成淘寶爬蟲?
如何使用POST 抓取網頁內容?
[爬蟲實戰] 如何抓取MoneyDJ 文章中的人氣指數?
[爬蟲實戰] 如何抓取心食譜的食譜資訊?
[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?
[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 Agoda 的旅館資訊?
[爬蟲實戰] 如何使用Python 模擬登入淘寶並成功抓取淘寶指數?
[爬蟲實戰] 如何抓取集保戶股權分散表?
如何使用Selenium IDE 記錄抓取包含Iframe 頁面資訊的步驟 - 以司法院法學檢索系統為例
如何使用RSelenium 抓取PTT Food版的內容?
[爬蟲實戰] 如何告訴PTT我已滿18並順利抓取八卦版的文章 ?
如何透過網路爬蟲將網路圖片存放至SQLite之中?
[爬蟲實戰] 如何爬取PTT的網頁?
[爬蟲實戰] 如何剖析PTT的網頁?
探索Facebook 隱藏的秘密: 使用Python 存取 Facebook 資訊
探索Facebook 隱藏的秘密: 使用Graph API
[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁內容 (以永慶房屋為例)?
[爬蟲實戰] 如何抓取圖表內的價格資訊?
[爬蟲實戰] 如何抓取591租屋網的資訊?
如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha) (Part 1)?
如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha) (Part 2)?
25
Out[27]:
['https://www.youtube.com/watch?v=ceUhb2-gYOU&index=1&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=woJ2ZpQ1Q9I&index=2&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=PzCP8cenOEc&index=3&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=ETvkf5a5rUo&index=4&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=6f2O4LEU058&index=5&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=Ef0kh6NPiBE&index=6&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=CDwUsqpgYpU&index=7&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=YvR39jTbcRc&index=8&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=g49HtnX3SOo&index=9&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=MQH4Rau_F_A&index=10&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=DF47h_hhGZw&index=11&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=oSVCSFBcE4U&index=12&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=4NFHIW43GAY&index=13&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=PYy5C9IIgp8&index=14&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=G5MDpnGsE-k&index=15&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=kmaLelILvb8&index=16&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=4_b3hsezf0w&index=17&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=pudl3-BzFok&index=18&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=lxUIgZj9wfg&index=19&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=VXVE9ql85n8&index=20&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=_0WTohwhPHk&index=21&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=kPIfXmQIW6A&index=22&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=zzMRbrOHlrk&index=23&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=KESG8I9C3oA&index=24&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF',
'https://www.youtube.com/watch?v=zmHVG6c_kFo&index=25&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF']

25
['3:22',
'3:11',
'3:15',
'3:34',
'3:03',
'3:13',
'3:01',
'3:45',
'5:41',
'8:02',
'6:54',
'4:07',
'4:49',
'5:36',
'3:46',
'3:58',
'1:58',
'3:48',
'2:50',
'3:50',
'3:29',
'3:46',
'3:31',
'6:01',
'7:51']

import requests
import pandas as pd
from lxml import html
from pprint import pprint

url='https://www.youtube.com/playlist?list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF'
response = requests.get(url)

html_code=response.content
doc = html.fromstring(html_code, parser=html.HTMLParser(encoding='utf8'))

url_base = 'https://www.youtube.com'

https://www.youtube.com/watch?v=woJ2ZpQ1Q9I&index=2&list=PLohb4k71XnPaQRTvKW4Uii1oq-JPGpwWF

links = doc.xpath('//td[@class="pl-video-thumbnail"]/span/a/@href')

links = doc.xpath('//td[@class="pl-video-title"]/a/@href')
links = [url_base+link for link in links ]
pprint(len(links))

titles = doc.xpath('//td[@class="pl-video-title"]/a/text()')

pprint(titles)

3:11

times_ = doc.xpath('//td[@class="pl-video-time"]//div[@class="timestamp"]/span/text()')

print len(times_)

pprint(times_)

for t in titles:
print t.replace('\n','')

posted @ 2017-01-20 20:39  duanqs  阅读(326)  评论(0编辑  收藏  举报