11 2021 档案
孔子学院
摘要:""" author:张鑫 date:2022/02/15 13:14 发布账号昵称、发布账号ID、发布时间、内容、发帖链接、账号主页链接、点赞数、评论数、分享数 运行环境 Chrome浏览器 和 selenium驱动版本一致即可 可自行接入公司数据库 keyword_list = ['tsaiin
台湾通
摘要:import timedef xiamen(): import pymysql import requests import time import re import datetime import hashlib def get_time(strs): if len(strs) > 25: #
中台办
摘要:import pymysql def get_md5(parmStr): # 1、参数必须是utf8 # 2、python3所有字符都是unicode形式,已经不存在unicode关键字 # 3、python3 str 实质上就是unicode if isinstance(parmStr, str)
查询mysql里只有空格的数据
摘要:SELECT ir_id from hkby_facebookhistory_abroaddataall where ir_content=" "
删除mysql中只有空格的数据
摘要:delete from hkby_facebookhistory_abroaddataall where ir_content=" " and ir_authors='china xinhua news'
判断内容是否存在mongo数据库里
摘要:"""author:张鑫date:2021/5/4 19:44data>list>(index_show,order,title,title_icon)https://api.bilibili.com/pgc/season/index/result?access_key=1c1c28ef37ba0b
HTTP status code is not handled or not allowed
摘要:把错误状态码加入settings中 HTTPERROR_ALLOWED_CODES = [599]
scrapy运行
摘要:'''scrapy创建并运行1.创建项目,控制台输入scrapy startproject xiachufangs2.跳转到项目 cd xiachufang3.创建爬虫项目,scrapy genspider xiachufang 域名(www开头) ,项目名和文件名不能一样4.修改设置。在setti
读取mongo数据库,把数据存到Excel中
摘要:"""author:张鑫date:2021/11/3 15:15"""# 导入模块import pandas as pdimport pymongo# 连接数据库client = pymongo.MongoClient('localhost', 27017)db = client['zhaopin'
boss直聘
摘要:"""author:张鑫date:2021/11/3 11:30https://m.zhipin.com/wapi/zpgeek/mobile/search/joblist.json?query=python%E7%88%AC%E8%99%AB%E5%B7%A5%E7%A8%8B%E5%B8%88&
scrapy运行文件run.py
摘要:from scrapy import cmdline# baidus:爬虫文件里的namecmdline.execute('scrapy crawl baidus'.split())
智联招聘职位信息
摘要:"""author:张鑫date:2021/10/28 10:48"""import jsonimport reimport timeimport randomimport pandas as pdimport requestsfor i in range(1,20): print(f'******