kuluma

2020年4月22日

摘要：菜鸟教程链接：https://www.runoob.com/mongodb/mongodb-tutorial.html 1、NoSQL--非关系型数据库今天我们可以通过第三方平台（如：Google,Facebook等）可以很容易的访问和抓取数据。用户的个人信息，社交网络，地理位置，用户生成的数据和阅读全文

posted @ 2020-04-22 17:07 kuluma 阅读(157) 评论(0) 推荐(0) 编辑

2020年4月20日

python常用内置函数

摘要： 1、abs() 返回绝对值 2、max() 返回最大值 min() 返回最小值 3、数据类型转换 int() 、float() 、str() 、bool() 4、数据类型检查 isinstance(x, (int, float) ) 传入参数是否为 int 或 float 类型，返回 True // 阅读全文

posted @ 2020-04-20 15:25 kuluma 阅读(167) 评论(0) 推荐(0) 编辑

2020年4月11日

【BOOK】动态渲染页面爬取--Selenium库

摘要：动态渲染页面爬取 JavaScript动态渲染其中一种方式是Ajax请求，通过直接分析Ajax再用requests来实现数据爬取另外一种方式是模拟浏览器运行一、 Selenium库 Selenium是自动化测试工具，可以驱动浏览器执行特定动作(点击、下拉)，还可以获取浏览器当前呈现页面的源代码阅读全文

posted @ 2020-04-11 16:50 kuluma 阅读(301) 评论(0) 推荐(0) 编辑

2020年4月3日

【BOOK】Ajax数据爬取

摘要： Requests获取原始HTML文档，Ajax加载和JavaScript处理的数据无法获得一、Ajax Ajax—异步的JavaScript和XML Ajax请求页面更新： 1、发送请求 2、解析内容 3、渲染网页 JavaScript向服务器发送了一个Ajax请求二、Ajax分析方法查阅读全文

posted @ 2020-04-03 18:07 kuluma 阅读(529) 评论(0) 推荐(0) 编辑

2020年3月27日

【BOOK】数据存储—文件存储(TXT、JSON、CSV)

摘要：数据存储文本文件—TXT、JSON、CSV 关系型数据库—MySQL、SQLite、Oracle、SQL Server、DB2 非关系型数据库—MongoDB、Redis 文件打开 open()，第二个参数设置文件打开方式 ※ r：只读，文件指针在文件开头 ※ rb：二进制只读，文件指针在文件开头阅读全文

posted @ 2020-03-27 16:34 kuluma 阅读(1249) 评论(0) 推荐(0) 编辑

2020年3月24日

【BOOK】解析库--pyquery

摘要： CSS选择器 1、初始化 html=''' <div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 act 阅读全文

posted @ 2020-03-24 11:43 kuluma 阅读(153) 评论(0) 推荐(0) 编辑

2020年3月19日

【BOOK】解析库--Beautiful Soup

摘要： 1、安装bs4库 2、解析器 3、节点选择器 from bs4 import BeautifulSoup html = ''' <html> <head><title>这是标题</title></head> <body> <p class="title" name="dromouse"><b>这是标阅读全文

posted @ 2020-03-19 12:00 kuluma 阅读(182) 评论(0) 推荐(0) 编辑

2020年3月15日

【BOOK】解析库—XPath

摘要： XPath—XML Path Language 1、安装 lxml库 2、XPath常用规则 3、XPath解析页面 from lxml import etree text = ''' <div> <ul> <li calss='item-1'><a href='link1.html'> first 阅读全文

posted @ 2020-03-15 16:21 kuluma 阅读(142) 评论(0) 推荐(0) 编辑

2020年3月9日

【BOOK】【实例】【requests库+正则表达式】猫眼TOP100电影排名爬取

摘要：猫眼电影TOP100页面爬取 https://maoyan.com/board/4 ##猫眼电影TOP100爬取 import requests import re import json import time ## 页面抓取 def get_one_page(url): try: headers 阅读全文

posted @ 2020-03-09 11:25 kuluma 阅读(244) 评论(0) 推荐(0) 编辑

2020年3月8日

【BOOK】正则表达式

摘要：正则表达式 1、开源中国—正则表达式测试工具：https://tool.oschina.net/regex/ 2、匹配规则 3、 match() 从字符串起始位置匹配正则表达式若从起始位置匹配不到则返回None ※目标匹配：在正则表达式中加()，就可以根据括号位置获得匹配到的部分内容 ※通用匹阅读全文

posted @ 2020-03-08 21:48 kuluma 阅读(223) 评论(0) 推荐(0) 编辑

公告