python爬虫 - 随笔分类 - nanaindi

m3u8

该文被密码保护。

posted @ 2020-04-29 18:27 nanaindi 阅读(0) 评论(0) 推荐(0) 编辑

摘要：爬取豆瓣top250部电影创建表： connect.py from sqlalchemy import create_engine HOSTNAME='localhost' PORT='3306' USERNAME='root' PASSWORD='123456' DATABASE='douban 阅读全文

posted @ 2017-12-04 16:09 nanaindi 阅读(427) 评论(0) 推荐(0) 编辑

scrapy爬取段子

摘要：scrapy.py 1.cmd运行scrapy shell http://www.baidu.com response.xpath('//div[@aa="bb"]') 找到需要匹配的内容 ##仅供参考语法，内容不准确 2.cmd运行： scrapy startproject sunbeam(名字随意) 然后在pycharm打开项目sunbeam 3.在items.py编辑需要爬... 阅读全文

posted @ 2017-11-17 22:53 nanaindi 阅读(237) 评论(0) 推荐(0) 编辑

scrapy安装

摘要：1.安装Python 安装完了记得配置环境，将python目录和python目录下的Scripts目录添加到系统环境变量的Path里。在cmd中输入python如果出现版本信息说明配置完毕 2.安装lxml lxml是一种使用 Python 编写的库，可以迅速、灵活地处理 XML。网址https:/ 阅读全文

posted @ 2017-11-14 23:37 nanaindi 阅读(140) 评论(0) 推荐(0) 编辑

xpath和CSS选择器

摘要：.content是二进制用来处理声音、图片、视频 .text是文本 xpath语法： /一层层查找 //不固定位置 //title/text() @选取属性 [@href]和[@href=''] .当前位置 ``* //div[@*] 选取所有带属性的div contains contains[@ 阅读全文

posted @ 2017-11-14 22:22 nanaindi 阅读(884) 评论(0) 推荐(0) 编辑

BS4爬取糗百

摘要：```python # -*- coding: cp936 -*- import urllib,urllib2 from bs4 import BeautifulSoup user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safa... 阅读全文

posted @ 2017-10-12 13:08 nanaindi 阅读(136) 评论(0) 推荐(0) 编辑

python爬取糗事百科

摘要：``` #-*- coding:utf-8 -*- #from __future__ import unicode_liter import urllib,urllib2 import re,sys,os,time headers={ 'Referer':'http://jandan.net/', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64)... 阅读全文

posted @ 2017-10-02 00:13 nanaindi 阅读(165) 评论(0) 推荐(0) 编辑

python爬取煎蛋网图片

摘要：``` py2版本： #-*- coding:utf-8 -*- #from __future__ import unicode_liter import urllib,urllib2,time import re,sys,os headers={ 'Referer':'http://jandan.net/', 'User-Agent':'Mozilla/5.0 (Windows NT 1... 阅读全文

posted @ 2017-09-28 12:47 nanaindi 阅读(1072) 评论(0) 推荐(0) 编辑

naniandiam

随笔分类 - python爬虫

公告