Python3爬取影片入库

1、服务器说明

[root@openshift maoyan]# cat /etc/redhat-release

CentOS Linux release 7.4.1708 (Core)

[root@openshift maoyan]# python -V

Python 3.6.3 :: Anaconda, Inc.

2、爬取电影入库

首页页面分地址分析

子页面数据获取，四个字段的数据写入，

3、mysql数据库连接

import pymysql

pymysql.install_as_MySQLdb()

class Sql(object):

conn = pymysql.connect(

host="127.0.0.1",

port=3306,

user='root',

passwd='123456',

db="movies",

charset="utf8"

)

4、源代码编写

[root@openshift maoyan]# cat maoyan2.py

# coding:utf-8

import requests,os,sys,django

from bs4 import BeautifulSoup

import re,urllib

import pymysql

pymysql.install_as_MySQLdb()

import datetime

headers = {

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Accept-Encoding':'gzip, deflate, sdch',

'Accept-Language':'zh-CN,zh;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Host':'maoyan.com',

'Upgrade-Insecure-Requests':'1',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

class Sql(object):

conn = pymysql.connect(

host="127.0.0.1",

port=3306,

user='root',

passwd='123456',

db="movies",

charset="utf8"

)

url = 'http://maoyan.com/films?showType=3'

#url = 'https://maoyan.com/films?showType=3&offset=30'

wbdata = requests.get(url,headers=headers)

soup = BeautifulSoup(wbdata.content,'html5lib')

movie_list = soup.select('div.movie-item > a')

for movie in movie_list:

m_url = 'http://maoyan.com' + movie.get('href')

m_data = requests.get(m_url,headers=headers)

m_soup = BeautifulSoup(m_data.content,'html5lib')

name = m_soup.select_one('div.movie-brief-container > h3.name').get_text()

movie_cate = m_soup.select("div.movie-brief-container > ul > li")[0].get_text()

release_date = m_soup.select("div.movie-brief-container > ul > li")[2].get_text()[0:10]

movie_img = m_soup.select_one('div.avatar-shadow > img').get('src')

created = datetime.datetime.now()

viewd = 1

cur = conn.cursor()

cur.execute("insert into userscore_movie(name,movie_cate,viewed,created,release_date,movie_img) VALUES('%s','%s','%d','%s','%s','%s')" %(name,movie_cate,viewd,created,release_date,movie_img))

print('正在爬取电影: '+name)

cur.close()

conn.commit()

Sql()

5、执行脚本，爬取数据过程

6、数据库查看

自此，完成了Python3爬取影片入库过程。

posted @ 2019-02-18 11:08 wang_wei123 阅读(229) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 零经验选手，Compose 一天开发一款小游戏！
· 通过 API 将Deepseek响应流式内容输出到前端
· AI Agent开发，如何调用三方的API Function，是通过提示词来发起调用的吗

历史上的今天：
2017-02-18 Python创建二维码通讯录
2017-02-18 Python web.py模块基本应用

公告

昵称： wang_wei123
园龄： 9年1个月
粉丝： 1
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

Python3爬取影片入库

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

最新评论