2019年10月29日

摘要: crawlSpider 作用于网站上有下一页和上一页的标签的内容,然后规则相同的网站进行爬取的效果 启动命令 : 1、创建项目文件 scrapy startproject 项目名称 2、cd 项目文件 3、创建爬虫 scrapy genspider -t crawl 爬虫名称 域名 语句作用: 1、 阅读全文
posted @ 2019-10-29 08:58 请叫我山楂熊° 阅读(95) 评论(0) 推荐(0) 编辑

2019年9月7日

摘要: # 导包 (因为python有mongodb数据库的包,所以可以直接引用,如果自己的python环境中没有,则可以用pip install pymongo进行下载) import pymongo # 首先需要注意,mongodb数据库存储的类型是以键值对类型进行存储,所以在存储以前一定要进行数据筛选 阅读全文
posted @ 2019-09-07 10:37 请叫我山楂熊° 阅读(1391) 评论(0) 推荐(0) 编辑
摘要: #导包(因为python有mysql数据库的包,所以可以直接引用,如果自己的python环境中没有,则可以用pip install pymysql进行下载) import pymysql # 定义保存数据库函数 def save_mysql(需要添加的数据名称): # 设置mysql连接 conne 阅读全文
posted @ 2019-09-07 10:25 请叫我山楂熊° 阅读(2641) 评论(0) 推荐(1) 编辑

2019年8月22日

摘要: 1、 python编程里字符串的内置方法(非常全) capitalize() 把字符串的第一个字符改为大写 casefold() 把整个字符串的所有字符改为小写 center(width) 将字符串居中,并使用空格填充至长度 width 的新字符串 count(sub[, start[, end]] 阅读全文
posted @ 2019-08-22 10:16 请叫我山楂熊° 阅读(330) 评论(0) 推荐(0) 编辑

2019年8月20日

摘要: dump和load是对于json格式的写入和读取,dumps和loads只是类型转换 dump : 是将dict(字典格式)转换为str(字符串格式),并且写入到json文件中 例如: dumps: 是将dict(字典格式)转换为str(字符串格式)。 例如: 运行结果: load: 用于从json 阅读全文
posted @ 2019-08-20 11:54 请叫我山楂熊° 阅读(735) 评论(0) 推荐(0) 编辑

2019年8月19日

摘要: 通用爬虫和聚焦爬虫 一、通用爬虫 通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo 等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 二、通用搜索引擎(Search Engine)工作原理 通用网络爬虫 从互联网中搜集网页,采集信息,这些网 阅读全文
posted @ 2019-08-19 22:31 请叫我山楂熊° 阅读(100) 评论(0) 推荐(0) 编辑

2019年8月7日

摘要: 1、导入需要区分工作目录 首先可以通过os.getcwd查看当前工作的目录是哪里 通常在python框架开发时候,发现,在项目目录外层嵌套一个工作目录,目录名称通常和工作目录一致。 如果使用编译器打开项目,过多一层或者过少一层打开目录都会导致导入错误,是因为编译器打开那个目录,就将python的工作 阅读全文
posted @ 2019-08-07 15:09 请叫我山楂熊° 阅读(1155) 评论(0) 推荐(0) 编辑

2019年7月20日

摘要: 创建Django步骤 1、在想要创建Django文件的文件夹,shift+鼠标右键进入在此处打开命令窗口 2、激活Django 命令 activate DjangoPath 3、创建Django文件 命令 Django-admin startproject 文件名称 4、进入创建文件夹,并在里面创建 阅读全文
posted @ 2019-07-20 11:15 请叫我山楂熊° 阅读(162) 评论(0) 推荐(0) 编辑

导航