摘要:
1.爬虫实战项目,爬取小说,只能爬取免费小说(VIP小说需要充钱登陆:方法有所差异,后续会进行讲解) 本教程出于学习目的,如有犯规,请留言联系 爬取网站:起点中文网,盗墓笔记免费篇 https://book.qidian.com/info/68223#Catalog 2.网页结构分析 结构分析发现: 阅读全文
摘要:
1. 找好练习网站(不要恶意爬取,爬取前面10也即可,避免给网站造成压力) 网站链接:http://www.netbian.com/index.htm 2.实现方法: 本流程使用requests + bs4进行爬取 python版本:python3.6(尽量不要使用python2) 3.爬取思路及注 阅读全文
摘要:
目的: 经常需要对信息分析中的结果文件进行分析,有时可能期望提取指定染色体范围内,指定区间内的文件。 代码: #!/bin/bash echo -e "\033[32m\n地球是圆的,而看似像终点的地方可能也只是起点。\n \033[0m" # 如果不指定输入结果名称,使用默认名称 outfile= 阅读全文
摘要:
测试数据集: aa|bb|cc 1 2 cc|dd|ee 2 3 ad|dd|ee 2 3 bc|dd|ee 2 3 代码: for i in {1..3}doecho '******'$i'********'less demo.txt | awk -F "\t" '{split($1,a,"|") 阅读全文
摘要:
代码: #!/usr/bin/env python #-*- coding:utf-8 -*- class A(object): def __init__(self,a,b): self.a = a self.b = b self.ss = (1, 2) self.ll = [1, 2] def a 阅读全文
摘要:
目的: 爬虫练手 爬虫建议: 1、刚开始学习bs4库的时候,官方教程上面侧重于介绍find 和 find_all方法, 2、如果了解css语法和xpath语法,其实这两个的灵活性更好 代码: import requests import time from bs4 import BeautifulS 阅读全文
摘要:
目的: 1、在前面2个教程上增加了一些新的想法 2、增加了地点选择[暂时只写了一个], 3、完全的selenium操作,没有requests操作 4、查询结果输出 5、更改下一页的判断方式 6、class封装 代码下一步优化点: 1、文件输出部分,略显繁琐 2、run() 函数体偏长, 代码: #! 阅读全文
摘要:
目的: 上周连不上网,最后委托别人帮我写的周报, 基于最近在学校selenium自动化,便想着可以尝试下自动化写周报; 代码: #!/usr/bin/evn python #-*- coding:utf-8 -*- """ 测试oa自动写周报 """ import time from seleniu 阅读全文
摘要:
目的: 测试selenium发送邮件 代码: #!/usr/bin/env python #-*- coding:utf-8 -*- """ 利用163邮箱发邮件 """ import time from selenium import webdriver from getpass import g 阅读全文
摘要:
目的: 前一篇文章写的也是爬取前程无忧,该篇文章对脚本进行了部分改动,增加了灵活性 1.利用隐式等待,废除time.sleep的使用,节约时间成本 2.添加了用户名,密码及job名称参数,更加灵活 3.增加了下一页判断,如果某个job有多页结果,可以查询到全部信息 代码: #!/usr/bin/en 阅读全文