随笔档案「2020年12月」 - 丿adhere

selenium模拟浏览器爬取淘宝产品信息

摘要：1 from selenium import webdriver 2 from selenium.webdriver.common.by import By 3 from selenium.webdriver.support.ui import WebDriverWait 4 from seleni 阅读全文

posted @ 2020-12-24 15:50 丿adhere

python连接MongoDB

摘要：一、MongoDB介绍 MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。在做爬虫的时候，抓取的数据是一些结构阅读全文

posted @ 2020-12-18 18:42 丿adhere

pyquery库

摘要：一、pyquery库 PyQuery是一个类似于jQuery的解析网页工具，使用lxml操作xml和html文档，它的语法和jQuery很像。和XPATH，Beautiful Soup比起来，PyQuery更加灵活，提供增加节点的class信息，移除某个节点，提取文本信息等功能，pyquery和Be 阅读全文

posted @ 2020-12-16 19:14 丿adhere

BeautifulSoup4库

摘要：一、BeautifulSoup4 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。 Beautiful Soup的三个特点： Beautiful Soup提供一些简单的方法和python式函数，用于浏览，搜索和修改解析树，它是一个工具箱，通过解析文档为用户提阅读全文

posted @ 2020-12-03 17:08 丿adhere