摘要:
正则表达式语法: 阅读全文
摘要:
爬虫爬取的数据分为服务器渲染,或者本地渲染 用户发送请求后获得的是服务器返回的完整的html代码,就叫做服务器渲染 本地渲染是服务器通过发送框架,和数据在本地拼接的叫做本地渲染, get-显示提交 post-隐示提交 url中请求一般都是使用的get请求 import requests #get类型 阅读全文
摘要:
在解决了数据库编码问题,以及评论数据过大的问题 最后采取云数据库的存储方式方便管理 接下来就是数据的存储然后可视化展示 阅读全文
摘要:
爬取数据没有报错但没有获得数据,之前一直都是好好的,拿出来单独测试发现,可能是我ip被封了 确定了,我ip被封了 阅读全文
摘要:
text =file.readlines() # 结果为str类型 for line in text:#遍历文件 print("开始爬取评论") name = line.split()[0] 加了个功能自动遍历网址目录进行爬取 然后接下来就是多爬取数据,然后进行数据清洗,清洗部分不符合格式要求的数据 阅读全文
摘要:
import requests import csv import time import numpy as np from bs4 import BeautifulSoup import json import pandas as pd from snownlp import SnowNLP fr 阅读全文
摘要:
采用nlp字典分析的方法 import pandas as pd from snownlp import SnowNLP from snownlp import sentiment import matplotlib.pyplot as plt df=pd.read_csv('D:\\毕设相关\\评 阅读全文
摘要:
import jieba #分词库 import wordcloud #词云库 #1.读取文件 f=open('评论.txt',encoding='utf-8') #f=open('..\\paqushuju\\评论文件\\魔王勇者.txt',encoding='utf-8') text=f.rea 阅读全文
摘要:
import requestsimport re #正则表达式模块url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=460329133'#1 发送请求#请求方式的注意是get或者post#还有参数#headers请求头作用是吧python代码进行 阅读全文
摘要:
import requests import time from bs4 import BeautifulSoup import json # 必要的库 def get_html(url): headers = { 'accept': 'text/html,application/xhtml+xml 阅读全文