获取全部校园网信息
1.取出一个新闻列表页的全部新闻 包装成函数。
2.获取总的新闻篇数,算出新闻总页数。
3.获取全部新闻列表页的全部新闻详情。
爬取南科大校园网的新闻
import requests from bs4 import BeautifulSoup from datetime import datetime import re # 获取新闻列表页的简略信息 def crawlOnePage(url): res=requests.get(url) res.encoding = 'UTF-8' soup = BeautifulSoup(res.text, 'html.parser') cont=soup.select('.block') for i in cont: print('——'*10 + '纯洁的分割线' + '——'*10) print() print('新闻网址: ' + 'www.sustc.edu.cn' + i.select('a')[0]['href']) print('新闻标题: ' + i.select('a')[0]['title']) a='http://www.sustc.edu.cn' + i.select('a')[0].attrs['href'] print(a) getDetail(a) print() # #获取新闻具体信息 def getDetail(url): res = requests.get(url) res.encoding = 'UTF-8' soup = BeautifulSoup(res.text, 'html.parser') cont=soup.select('.d')[0].text #将时间字符串转换成datetime格式 release_time=datetime.strptime(cont,'%Y-%m-%d ') print(release_time) print('新闻类型: ' + soup.select('.tag')[0].text) content=soup.select('.txt')[1].select('p') print(content[-1].text) for i in content[:-2]: print(i.text) #取得所有页面的新闻 def getTotalPage(url): res = requests.get(url) res.encoding = 'UTF-8' soup = BeautifulSoup(res.text, 'html.parser') # print(res.text) d = int(soup.select('.page_span')[0].text[:soup.select('.page_span')[0].text.index('页')].lstrip('共')) for i in range(1,d): page=str(i) geturl='http://www.sustc.edu.cn/news_events_/p/'+page crawlOnePage(geturl) getTotalPage('http://www.sustc.edu.cn/news_events_/p/1')
运行代码结果
————————————————————纯洁的分割线————————————————————
新闻网址: www.sustc.edu.cn/news_events_/4725
新闻标题: 我校物理系毕业生在《物理评论快报》发表本科期间科研成果
http://www.sustc.edu.cn/news_events_/4725
2018-04-11 00:00:00
新闻类型: 科研新闻
供稿:物理系
近日,物理学顶级期刊《物理评论快报》(Physical Review Letters, PRL)在线发表了以南方科技大学物理系2013级本科生李策群(目前在美国宾夕法尼亚州立大学攻读博士学位)为第一作者的论文。
拓扑节线半金属中费米面结构示意图
论文题目为“量子振荡的相位在拓扑节线半金属中的定则”(Rules for Phase Shifts of Quantum Oscillations in Topological Nodal-Line Semimetals)。我校物理系研究助理教授王春明为共同第一作者,副教授卢海舟为通讯作者。南科大是论文第一单位,该论文由南科大、南京大学和北京大学的合作者共同完成。
李策群在2018美国物理学会会议上做学术报告
李策群是我校物理系2013级本科生,2017年夏季毕业后赴美国宾夕法尼亚州立大学攻读博士学位。李策群从大三开始就进入卢海舟课题组进行研究,在王春明和卢海舟的指导下,于大四期间完成了论文中大部分理论计算。
这是李策群第三次在国际学术期刊上发表自己本科期间的科研成果。此前他在物理系副教授徐虎的指导下,以第一作者在美国物理联合会(AIP)旗下国际学术期刊《化学物理》(The Journal of Chemical Physics)发表了关于提高金属氧化物表面活性的研究成果,后受邀至意大利 University of Milano Bicocca 访问并与该校的课题组合作完成了题为“CO adsorption on graphite-like ZnO bilayers supported on Cu(111), Ag(111), and Au(111) surfaces”的论文,该论文已在美国化学学会(ACS)旗下期刊《物理化学C》(The Journal of Physical Chemistry C)上发表。今年三月,李策群在洛杉矶参加了美国物理学会举办的三月会议(APS March Meeting 2018),并在学术报告中向参会人员介绍自己的研究工作。
论文链接:
https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.120.146602
————————————————————纯洁的分割线————————————————————
新闻网址: www.sustc.edu.cn/news_events_/4722
新闻标题: 南科大化学系李闯创课题组在《美国化学会志》发表封面文章 在国际上首次完成Cyclocitrinol全合成
http://www.sustc.edu.cn/news_events_/4722
2018-04-09 00:00:00
新闻类型: 综合新闻
供稿:化学系
分析文章《活在叔本华的世界里》
import jieba import re f = open("C:/Users/ZD/PycharmProjects/test/test.txt", 'r', encoding='utf8') str = f.read() f.close() wordList = jieba.cut(str) wordList = list(jieba.cut(str)) wordDic = {} for i in set(wordList): wordDic[i] = wordList.count(i) sort_word = sorted(wordDic.items(), key=lambda d: d[1], reverse=True) for i in range(20): print(sort_word[i])