python编程

课后练习:

结果:

 

结果:

 

 拓展练习:

1. 从键盘输入整数 n(1-9 之间),对于 1-100 之间的整数删除包含 n 并且能被 n 整除的 数,例如如果 n 为 6,则要删掉包含 6 的如 6,16 这样的数及是 6 的倍数的如 12 和 18 这 样的数,输出所有满足条件的数,要求每满 10 个数换行。

测试数据: Enter the number: 6

屏幕输出:

代码:

 1 counter=0
 2 n=int(input())
 3 StrN=str(n)
 4 for i in range(1,101):
 5     Str=str(i)
 6     if(i%n!=0 and StrN not in Str ):
 7         if(counter != 9):
 8             print (i,end=',')
 9             counter+=1
10         else:
11             print(i)
12             counter=0

输出结果:

 

2. 请用随机函数产生 500 行 1-100 之间的随机整数存入文件 random.txt 中,编程寻找这 些整数的众数并输出,众数即为一组数中出现最多的数。

 1 import random
 2 counter=0
 3 List=[]
 4 with open('random.txt','w')as f:
 5     while(counter!=500):
 6         n=random.randint(0,100)
 7         f.writelines(str(n)+'\n')
 8         List.append(n)
 9         counter+=1
10 maxnum=max(List.count(x) for x in set(List))
11 for x in set(List):
12     if(maxnum==List.count(x)):
13         print(x)

 

运行结果:

 

 

3. 文件 article.txt 中存放了一篇英文文章(请自行创建并添加测试文本),假设文章中的 标点符号仅包括“,”、“.”、“!”、“?”和“…”,编程找出其中最长的单词并输出

字符串中的split函数只能用一个符号分割字符。re模块中的split可以用多个符号分割字符,因此注意导入re模块。

1 import re
2 with open('article.txt','r')as f:
3     Str=f.read()
4 List=re.split(' |\?|!|,|\.{1,3}',Str)
5 print(List)
6 maxlength=max(len(x) for x in set(List))
7 for x in set(List):
8     if len(x)==maxlength:
9         print(x)

输入文件的内容:

aaa,bb,c.good!?emm mmm...thisistheanswer.

输出结果:

 

爬虫小实验:

 

爬虫进阶练习:

1. “迷你爬虫编程小练习”进阶:抽取某本书的前 50 条短评内容并计算评分(star)的平
均值。提示:有的评论中并不包含评分。

没有评分的情况如下图所示:

(注:以下是Dazhuang老师的代码

 1 import requests,re,time
 2 from bs4 import BeautifulSoup
 3 
 4 count=0  
 5 i=0   #页数
 6 s,count_s,count_del=0,0,0
 7 lst_stars=[]
 8 while count<50:
 9     try:
10         r=requests.get('https://book.douban.com/subject/26943161/comments/hot?p='+str(i+1))
11     except Exception as err:
12         print(err)
13         break
14     soup=BeautifulSoup(r.text,'lxml')
15     comments=soup.find_all('span','short')  #直接取得评论
16     
17     pattern=re.compile('<span class="user-stars allstar(.*?)rating"')
18     p=re.findall(pattern,r.text)
19     for item in comments:
20         count+=1
21         if(count>50):
22             count_del+=1  #超出50条记录的部分
23         else:
24             print(count,item.string)
25             
26     for star in p:
27         lst_stars.append(int(star))
28         
29     time.sleep(5)
30     i+=1  #更新页数
31     
32 for star in lst_stars[:-count_del]:
33     s+=int(star)
34 print(s//(len(lst_stars)-count_del))

 

2. 在“http://money.cnn.com/data/dow30/”上抓取道指成分股数据并将 30 家公司
的代码、公司名称和最近一次成交价放到一个列表中输出。

 1 import requests
 2 import re
 3 
 4 def retrieve():
 5     r=requests.get('http://money.cnn.com/data/dow30/')
 6     pattern=re.compile('class="wsod_symbol">(.*?)<\/a>.*?<span.*?">(.*?)<\/span>.*?\n.*?class="wsod_stream">(.*?)<\/span>')
 7     List = re.findall(pattern,r.text)
 8     return List
 9 
10 alist=retrieve()
11 print(alist)

 


3. 请爬取网页(http://www.volleyball.world/en/vnl/women/results-and
ranking/round1)上的数据(包括 TEAMS and TOTAL, WON, LOST of MATCHES)
 提示:在处理时可以用已学的方法将每一项需要的内容(如 USA 和 15)单独解析 出来,但这种做法将有联系的数据打散了,较好的做法是将每个 TEAM 的相关数据按 组解析出来。但是由于包含这 4 项信息的源代码(请自行观察)分在多行,所以在处 理时可以通过设置 flags 参数以多行模式来解决这个问题(形如 pattern = re.compile(…, flags=re.M) ) , 并且在构造正则表达式时要把换行时的空白字符表示出来(用\s+可表 示多个空白字符)。

正则表达式补充知识:

若没有re.M,且没有^与$,正则表达式默认匹配多行(如6)。

 

posted @ 2018-10-07 17:43  cellphone7  阅读(1460)  评论(0编辑  收藏  举报