摘要:
菜鸟教程链接:https://www.runoob.com/mongodb/mongodb-tutorial.html 1、NoSQL--非关系型数据库 今天我们可以通过第三方平台(如:Google,Facebook等)可以很容易的访问和抓取数据。用户的个人信息,社交网络,地理位置,用户生成的数据和 阅读全文
摘要:
1、abs() 返回绝对值 2、max() 返回最大值 min() 返回最小值 3、数据类型转换 int() 、float() 、str() 、bool() 4、数据类型检查 isinstance(x, (int, float) ) 传入参数是否为 int 或 float 类型,返回 True // 阅读全文
摘要:
动态渲染页面爬取 JavaScript动态渲染 其中一种方式是Ajax请求,通过直接分析Ajax再用requests来实现数据爬取 另外一种方式是模拟浏览器运行 一、 Selenium库 Selenium是自动化测试工具,可以驱动浏览器执行特定动作(点击、下拉),还可以获取浏览器当前呈现页面的源代码 阅读全文
摘要:
Requests获取原始HTML文档,Ajax加载和JavaScript处理的数据无法获得 一、Ajax Ajax—异步的JavaScript和XML Ajax请求页面更新: 1、 发送请求 2、 解析内容 3、 渲染网页 JavaScript向服务器发送了一个Ajax请求 二、Ajax分析方法 查 阅读全文
摘要:
数据存储 文本文件—TXT、JSON、CSV 关系型数据库—MySQL、SQLite、Oracle、SQL Server、DB2 非关系型数据库—MongoDB、Redis 文件打开 open(),第二个参数设置文件打开方式 ※ r:只读,文件指针在文件开头 ※ rb:二进制只读,文件指针在文件开头 阅读全文
摘要:
CSS选择器 1、初始化 html=''' <div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0 act 阅读全文
摘要:
1、安装bs4库 2、解析器 3、节点选择器 from bs4 import BeautifulSoup html = ''' <html> <head><title>这是标题</title></head> <body> <p class="title" name="dromouse"><b>这是标 阅读全文
摘要:
XPath—XML Path Language 1、安装 lxml库 2、XPath常用规则 3、XPath解析页面 from lxml import etree text = ''' <div> <ul> <li calss='item-1'><a href='link1.html'> first 阅读全文
摘要:
猫眼电影TOP100页面爬取 https://maoyan.com/board/4 ##猫眼电影TOP100爬取 import requests import re import json import time ## 页面抓取 def get_one_page(url): try: headers 阅读全文
摘要:
正则表达式 1、 开源中国—正则表达式测试工具:https://tool.oschina.net/regex/ 2、 匹配规则 3、 match() 从字符串起始位置匹配正则表达式 若从起始位置匹配不到则返回None ※目标匹配:在正则表达式中加(),就可以根据括号位置获得匹配到的部分内容 ※通用匹 阅读全文