懵懂的菜鸟

Stay hungry,Stay foolish.

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

随笔分类 -  Python爬虫

python处理中文
摘要:python 清洗中文文件 需要用到的两个链接: 1,unicode编码转换器 http://www.bangnishouji.com/tools/chtounicode.html 2,Python匹配中文的正则表达式 http://www.jb51.net/article/83975.htm 测试 阅读全文

posted @ 2017-10-25 00:31 懵懂的菜鸟 阅读(9490) 评论(0) 推荐(0) 编辑

爬取数据的程序
摘要:1 # -*- enconding:etf-8 -*- 2 import pymysql 3 import os 4 import time 5 import re 6 serveraddr="localhost" 7 user="root" 8 password="123456" 9 databaseName="test" 10 filename="./d... 阅读全文

posted @ 2017-08-25 13:48 懵懂的菜鸟 阅读(429) 评论(0) 推荐(0) 编辑

trsd_extract_EDSD_new
摘要:1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ''' 6 适应新版本 7 ''' 8 9 10 year='17A'#用户自定义 11 ss='./data/'#根目录 12 filename = ss+'EDSD%s.txt'%year#输入文件名 13 14 15 16 17 def ... 阅读全文

posted @ 2017-08-25 13:47 懵懂的菜鸟 阅读(311) 评论(0) 推荐(0) 编辑

tred_extract_EDED_new
摘要:1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ''' 6 适应新版本 7 ''' 8 9 10 year='17a'#用户自定义 11 ss='./data/'#根目录 12 filename = ss+'EDED%s.txt'%year#输入文件名 13 14 15 16 17 def ... 阅读全文

posted @ 2017-08-25 13:46 懵懂的菜鸟 阅读(531) 评论(0) 推荐(0) 编辑

trmd_b1_ok
摘要:1 # -*- coding:utf-8 -*- 2 ''' 3 从11c开始提取 4 ''' 5 import re 6 import numpy as np 7 import os 8 year = '17A' 9 ss="./data/edmd/" 10 # filename=ss+"/EDMDI1.17A" 11 def get_tag(): 1... 阅读全文

posted @ 2017-08-25 13:46 懵懂的菜鸟 阅读(284) 评论(0) 推荐(0) 编辑

trcd_extract_EDCD_new
摘要:1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ''' 6 适应新版本 7 ''' 8 9 10 year='17A'#用户自定义 11 ss='./data/'#根目录 12 filename = ss+'EDCD%s.txt'%year#输入文件名 13 14 15 16 17 def ... 阅读全文

posted @ 2017-08-25 13:45 懵懂的菜鸟 阅读(200) 评论(0) 推荐(0) 编辑

python网页爬虫 spiders_97A-04B
摘要:1 import urllib 2 import urllib.request 3 import bs4 4 from bs4 import BeautifulSoup as bs 5 import re 6 import os 7 8 # year = '97A' 9 # ss="./data/%s/"%year 10 ''' 11 适应网页爬取95... 阅读全文

posted @ 2017-08-25 13:45 懵懂的菜鸟 阅读(498) 评论(0) 推荐(0) 编辑

b3_trcd_EDCD_new
摘要:1 # -*- coding:utf-8 -*- 2 import re 3 4 5 year="17A" 6 ss='./data/' 7 filename = ss+'EDCD%s.txt'%year 8 9 10 ''' 11 适应新版本 12 ''' 13 14 15 p1 = r"^\s{4}(?:X|\W)\s{2}(C... 阅读全文

posted @ 2017-08-25 13:43 懵懂的菜鸟 阅读(131) 评论(0) 推荐(0) 编辑

b4和tncl_extract_UNCL_new
摘要:1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ''' 6 适应新版本 7 8 注意: 9 1)17A文件改完后缀后,需要转为UTF-8无BOM格式,才能正确处理。 10 2)fr = open(filename,encoding='utf-8') 11 12 ''' 13 14 15 year='... 阅读全文

posted @ 2017-08-25 13:43 懵懂的菜鸟 阅读(243) 评论(0) 推荐(0) 编辑

b2_trsd_EDSD_new
摘要:1 # -*- coding:utf-8 -*- 2 import re 3 4 5 ss="./data/" 6 year = '17A' 7 filename = ss+'EDSD%s.txt'%year 8 9 10 ''' 11 适应新版本 12 13 ''' 14 15 16 17 p1 = r"^\s{4}(?:X|... 阅读全文

posted @ 2017-08-25 13:42 懵懂的菜鸟 阅读(269) 评论(0) 推荐(0) 编辑

python 爬取网页内容
摘要:1 #encoding:UTF-8 2 import urllib 3 import urllib.request 4 import bs4 5 from bs4 import BeautifulSoup as bs 6 def test1(): 7 url = "http://www.stylusstudio.com/edifact/D95B/CODECO.htm" 8... 阅读全文

posted @ 2017-08-23 11:35 懵懂的菜鸟 阅读(575) 评论(0) 推荐(0) 编辑

Python 爬取数据入库mysql
摘要:1 # -*- enconding:etf-8 -*- 2 import pymysql 3 import os 4 import time 5 import re 6 serveraddr="localhost" 7 user="root" 8 password="123456" 9 databaseName="test" 10 filename="./data/UNCL.c... 阅读全文

posted @ 2017-08-15 18:09 懵懂的菜鸟 阅读(997) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示