摘要:
古今地名映射 爬取来源 从百度百科调用它的搜索接口:检索两个内容,一个是它的现地名,另一个是它的简介,从简介中在进行词性分析找出对应的地名 代码 import urllib.request import urllib.parse from lxml import etree from pyhanlp 阅读全文
摘要:
五言诗生成 数据来源 之前的诗集收集中包含:五言,五言绝句,五言律诗 收集训练集 #提取相关的五言诗词,构成训练集 import pandas as pd import re #获取指定文件夹下的excel import os def get_filename(path,filetype): # 输 阅读全文
摘要:
诗词收集改进 改进 对formal形式为:七言,七言绝句,七言律诗的诗词进行收集 import pandas as pd import re #获取指定文件夹下的excel import os def get_filename(path,filetype): # 输入路径、文件类型例如'.xlsx' 阅读全文
摘要:
七言诗词收集 数据清洗 通过之前对每个诗词进行的诗词形式的分类:提取诗词形式与对应的诗词内容两列 开始清洗: ①找到formal为七言绝句的诗词 ②对诗词进行分词,判断是否符合要求,然后去除一些非法字符的段落 import pandas as pd import re #获取指定文件夹下的excel 阅读全文
摘要:
全体诗人提取 个人生平提取代码 # coding:utf-8 import re from pyhanlp import * import pandas as pd #人名“nr“ #地名“ns” #机构名“nt” import os #获取文件夹下的所有文件名 def get_filename(p 阅读全文
摘要:
生平信息提取 抽取步骤 1.获取自己的分词语料库:主要是所有诗人名称,所有朝代的年号 def add_user_dict(): CustomDictionary = JClass("com.hankcs.hanlp.dictionary.CustomDictionary") #添加作者名字 auth 阅读全文
摘要:
朝代年号标准化 朝代年号来源 代码 import requests from bs4 import BeautifulSoup from lxml import etree import re headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0 阅读全文
摘要:
卷积神经网络 CNN padding stride MaxPooling CNN 代码: from torchvision import transforms from torchvision import datasets from torch.utils.data import DataLoad 阅读全文
摘要:
Dataset&DataLoader 代码 import numpy as np import torch from torch.utils.data import Dataset,DataLoader class DiabetesDataset(Dataset): def __init__(sel 阅读全文
摘要:
pytorch实现单维度线性回归 代码 import torch x_data=torch.Tensor([[1.0],[2.0],[3.0]]) y_data=torch.Tensor([[2.0],[4.0],[6.0]]) class LinearModel(torch.nn.Module): 阅读全文