关于xpath和Pyquery之间的配合使用
自己在学习崔庆才老师爬虫课程中文本存储一节中,看到崔老师以爬取知乎搜索为例进行演示,但是其使用的是pyquery解析库来解析网页,自己在网上看到有文章说xpath是最好的解析库,也想使用xpath来完成网页的解析,但是其中遇到了问题。
崔老师的源代码
import requests from pyquery import PyQuery as pq url = 'https://www.zhihu.com/explore' headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } html = requests.get(url, headers=headers).text doc = pq(html) items = doc('.explore-tab .feed-item').items() for item in items: question = item.find('h2').text() author = item.find('.author-link-line').text() answer = pq(item.find('.content').html()).text() file = open('explore.txt', 'a', encoding='utf-8') file.write('\n'.join([question, author, answer])) file.write('\n' + '=' * 500 + '\n') file.close()
使用崔老师的代码能够完整爬取网页上的内容
自己遇到的问题:
首先第一个问题,文字内容有折叠
在网页源代码上直接显示的结果就是
这个问题,暂时在网上也没有找到如何使用xpath完整爬下来整个文字内容的方法。
但是万幸的是,网页源代码中有这个:
虽然比较乱,但是能够完整的显示出文字内容,崔老师的代码也是通过对这一段代码进行解析,绕过了上面需要对折叠内容处理的这一个环节。这是成功的第一步,
第一步、首先对崔老师的代码进行分析
import requests from pyquery import PyQuery as pq from lxml import etree url = 'https://www.zhihu.com/explore' headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } html = requests.get(url, headers=headers).text doc = pq(html) items = doc('.explore-tab .feed-item').items() for item in items: question = item.find('h2').text() author = item.find('.author-link-line').text() print(item.find('.content').html()) print(type(item.find('.content').html()))#结果显示是字符串 print(item.find('.content'))#如果不加后面的html那么显示结果就是和网页源代码中的一样,杂乱无章 print(type(item.find('.content')))#结果是<class 'pyquery.pyquery.PyQuery'> print('\n' + '=' * 500 + '\n')#注意这个写法,换行 answer = pq(item.find('.content').html()).text()#利用pyquery处理字符串然后得到文字内容,且该文字内容已经是完成换行以后的格式 print(answer) print('\n' + '=' * 500 + '\n')
分析结果
print(item.find('.content').html())的运行结果是(当然这个网页是不断变化的,结果可能不一样,但是内涵一样)
print(type(item.find('.content').html()))
<p>更新,有人指出去年得票不足20%的北鼻直接进入了大名单,而去年十六强选手李沁直接被排除出了大名单。</p><figure><img src="https://pic2.zhimg.com/50/v2-e2016fa98ead0ba850dc2cd5864eaee9_b.jpg" data-size="normal" data-rawwidth="600" data-rawheight="1553" data-default-watermark-src="https://pic3.zhimg.com/50/v2-2809ec026f3d2c5248435c2c6f2fe956_b.jpg" class="origin_image zh-lightbox-thumb" width="600" data-original="https://pic2.zhimg.com/50/v2-e2016fa98ead0ba850dc2cd5864eaee9_r.jpg"><figcaption>看杨颖的得票率</figcaption></figure><figure><img src="https://pic2.zhimg.com/50/v2-3ed340b038f08c14fd9f2be98de9f1ba_b.jpg" data-size="normal" data-rawwidth="480" data-rawheight="2193" data-default-watermark-src="https://pic4.zhimg.com/50/v2-a5d569044b82138961e68056987a7374_b.jpg" class="origin_image zh-lightbox-thumb" width="480" data-original="https://pic2.zhimg.com/50/v2-3ed340b038f08c14fd9f2be98de9f1ba_r.jpg"><figcaption>十六强最终名单有李沁</figcaption></figure><figure><img src="https://pic2.zhimg.com/50/v2-6d73e2275930f33ca0939bf204ccb8cc_b.jpg" data-size="normal" data-rawwidth="816" data-rawheight="650" data-default-watermark-src="https://pic1.zhimg.com/50/v2-28bbdb8acdca6fe2e52d46224dd048e9_b.jpg" class="origin_image zh-lightbox-thumb" width="816" data-original="https://pic2.zhimg.com/50/v2-6d73e2275930f33ca0939bf204ccb8cc_r.jpg"><figcaption>请看本次大赛规则3</figcaption></figure><p>主办方在制定规则时,为了针对某一个特定选手,甚至都懒得去做参赛选手合规性检查,仅凭自身喜好或者金主要求就草草确定名单,并在版友高涨的呼声中一意孤行违背民意,试问这种比赛有何公信力可言?为捧金主指定的明星,人为扫清障碍,吃相难看。</p><p>再看当日微博营销号的推送</p><figure><img src="https://pic2.zhimg.com/50/v2-56690db07b2a258982a36d3aa723dc34_b.jpg" data-size="normal" data-rawwidth="1242" data-rawheight="2688" data-default-watermark-src="https://pic4.zhimg.com/50/v2-e9b503e61d7370d016800374a3641b42_b.jpg" class="origin_image zh-lightbox-thumb" width="1242" data-original="https://pic2.zhimg.com/50/v2-56690db07b2a258982a36d3aa723dc34_r.jpg"><figcaption>比赛未开始就开始营销虎扑女神</figcaption></figure><figure><img src="https://pic1.zhimg.com/50/v2-f399caffcade04faabf9b5333207c190_b.jpg" data-size="normal" data-rawwidth="1242" data-rawheight="2688" data-default-watermark-src="https://pic2.zhimg.com/50/v2-bf64b142f3b1293971c03418f01e974c_b.jpg" class="origin_image zh-lightbox-thumb" width="1242" data-original="https://pic1.zhimg.com/50/v2-f399caffcade04faabf9b5333207c190_r.jpg"><figcaption>次日通稿安排上</figcaption></figure><a href="//link.zhihu.com/?target=https%3A//media.weibo.cn/article%3Fid%3D2309404374556121916645" data-draft-node="block" data-draft-type="link-card" class=" wrap external" target="_blank" rel="nofollow noreferrer">独家 | 从拓跋迪再到赵敏郡主,这位新晋虎扑女神有点撩!</a><p>可以说这场比赛就是为某个演员量身定制的,虎扑作为一个竞技体育论坛,一个标榜专业性的篮球论坛,在自己主办的比赛中丧失体育精神,连比赛最起码的公平都做不到,实在是让人失望。</p><p>——————————————————————————————————————</p><p>这是一个虎扑jr当即重新开的投票,2000多人参与,至少也说明了一点问题吧,去年杨超越未出道不是艺人反而参加了艺人选美,今年是艺人反而不能参选,咄咄怪事,不过虎扑好像也不是第一次做这种智熄操作了</p><figure><img src="https://pic2.zhimg.com/50/v2-0109797b405787e3840f31698960456b_b.jpg" data-caption="" data-size="normal" data-rawwidth="459" data-rawheight="654" data-default-watermark-src="https://pic3.zhimg.com/50/v2-e5ed47aa5a2ecf549cdad2bb67faa1f6_b.jpg" class="origin_image zh-lightbox-thumb" width="459" data-original="https://pic2.zhimg.com/50/v2-0109797b405787e3840f31698960456b_r.jpg"></figure><a href="//link.zhihu.com/?target=https%3A//bbs.hupu.com/27512572.html" data-draft-node="block" data-draft-type="link-card" data-image="https://pic3.zhimg.com/v2-345c0bbece94f6871feed74e8721f912_180x120.jpg" data-image-width="750" data-image-height="249" class=" wrap external" target="_blank" rel="nofollow noreferrer">步行街女神投票是怎么回事?5点半的高亮全部被灭折叠?</a><a href="//link.zhihu.com/?target=https%3A//bbs.hupu.com/27513370.html" data-draft-node="block" data-draft-type="link-card" data-image="https://pic3.zhimg.com/v2-5a4acbc6b2776cc9c4253ccecd0e5fba_180x120.jpg" data-image-width="750" data-image-height="280" class=" wrap external" target="_blank" rel="nofollow noreferrer">请问版主是否有针对性的利用点亮点灭功能控制帖子舆论?</a><a href="//link.zhihu.com/?target=https%3A//bbs.hupu.com/27514498.html" data-draft-node="block" data-draft-type="link-card" data-image="https://pic2.zhimg.com/v2-ff18409a40b9b7982cded8661a7c0ff5_120x160.jpg" data-image-width="678" data-image-height="1206" class=" wrap external" target="_blank" rel="nofollow noreferrer">对虎扑点灭机制漏洞的小小质疑,为什么网友能够1分钟22灭</a><a href="//link.zhihu.com/?target=https%3A//bbs.hupu.com/27513325.html" data-draft-node="block" data-draft-type="link-card" data-image="https://pic4.zhimg.com/v2-bfdbb0f822d09975c4c60bfe2746d89b_120x160.jpg" data-image-width="800" data-image-height="1689" class=" wrap external" target="_blank" rel="nofollow noreferrer">为什么我普通的发言瞬间被灭50多亮??在虎扑杨超越三个字不能提吗?</a><figure><img src="https://pic2.zhimg.com/50/v2-b9bfa97ede870b067e4c1946389beff3_b.jpg" data-size="normal" data-rawwidth="906" data-rawheight="732" data-default-watermark-src="https://pic4.zhimg.com/50/v2-9023e9ef8703763cdf63dcb220023ee3_b.jpg" class="origin_image zh-lightbox-thumb" width="906" data-original="https://pic2.zhimg.com/50/v2-b9bfa97ede870b067e4c1946389beff3_r.jpg"><figcaption>这是虎扑的回复</figcaption></figure><figure><img src="https://pic3.zhimg.com/50/v2-75891119866bfecabd0b5e3eda0b8f6c_b.jpg" data-size="normal" data-rawwidth="663" data-rawheight="374" data-default-watermark-src="https://pic4.zhimg.com/50/v2-3f60b4b559d0a57a41a2e3bf196bbcb7_b.jpg" class="origin_image zh-lightbox-thumb" width="663" data-original="https://pic3.zhimg.com/50/v2-75891119866bfecabd0b5e3eda0b8f6c_r.jpg"><figcaption>他所谓的证据</figcaption></figure><p>篮球论坛上年得分不高的人不准参与本赛季最佳评选,说出去真的要笑死人</p><p></p>
<class 'str'>
与之对比
print(item.find('.content')) print(type(item.find('.content')))的运行结果是
<textarea hidden="" class="content"><p>更新,有人指出去年得票不足20%的北鼻直接进入了大名单,而去年十六强选手李沁直接被排除出了大名单。</p><figure><img src="https://pic2.zhimg.com/50/v2-e2016fa98ead0ba850dc2cd5864eaee9_b.jpg" data-size="normal" data-rawwidth="600" data-rawheight="1553" data-default-watermark-src="https://pic3.zhimg.com/50/v2-2809ec026f3d2c5248435c2c6f2fe956_b.jpg" class="origin_image zh-lightbox-thumb" width="600" data-original="https://pic2.zhimg.com/50/v2-e2016fa98ead0ba850dc2cd5864eaee9_r.jpg"><figcaption>看杨颖的得票率</figcaption></figure><figure><img src="https://pic2.zhimg.com/50/v2-3ed340b038f08c14fd9f2be98de9f1ba_b.jpg" data-size="normal" data-rawwidth="480" data-rawheight="2193" data-default-watermark-src="https://pic4.zhimg.com/50/v2-a5d569044b82138961e68056987a7374_b.jpg" class="origin_image zh-lightbox-thumb" width="480" data-original="https://pic2.zhimg.com/50/v2-3ed340b038f08c14fd9f2be98de9f1ba_r.jpg"><figcaption>十六强最终名单有李沁</figcaption></figure><figure><img src="https://pic2.zhimg.com/50/v2-6d73e2275930f33ca0939bf204ccb8cc_b.jpg" data-size="normal" data-rawwidth="816" data-rawheight="650" data-default-watermark-src="https://pic1.zhimg.com/50/v2-28bbdb8acdca6fe2e52d46224dd048e9_b.jpg" class="origin_image zh-lightbox-thumb" width="816" data-original="https://pic2.zhimg.com/50/v2-6d73e2275930f33ca0939bf204ccb8cc_r.jpg"><figcaption>请看本次大赛规则3</figcaption></figure><p>主办方在制定规则时,为了针对某一个特定选手,甚至都懒得去做参赛选手合规性检查,仅凭自身喜好或者金主要求就草草确定名单,并在版友高涨的呼声中一意孤行违背民意,试问这种比赛有何公信力可言?为捧金主指定的明星,人为扫清障碍,吃相难看。</p><p>再看当日微博营销号的推送</p><figure><img src="https://pic2.zhimg.com/50/v2-56690db07b2a258982a36d3aa723dc34_b.jpg" data-size="normal" data-rawwidth="1242" data-rawheight="2688" data-default-watermark-src="https://pic4.zhimg.com/50/v2-e9b503e61d7370d016800374a3641b42_b.jpg" class="origin_image zh-lightbox-thumb" width="1242" data-original="https://pic2.zhimg.com/50/v2-56690db07b2a258982a36d3aa723dc34_r.jpg"><figcaption>比赛未开始就开始营销虎扑女神</figcaption></figure><figure><img src="https://pic1.zhimg.com/50/v2-f399caffcade04faabf9b5333207c190_b.jpg" data-size="normal" data-rawwidth="1242" data-rawheight="2688" data-default-watermark-src="https://pic2.zhimg.com/50/v2-bf64b142f3b1293971c03418f01e974c_b.jpg" class="origin_image zh-lightbox-thumb" width="1242" data-original="https://pic1.zhimg.com/50/v2-f399caffcade04faabf9b5333207c190_r.jpg"><figcaption>次日通稿安排上</figcaption></figure><a href="//link.zhihu.com/?target=https%3A//media.weibo.cn/article%3Fid%3D2309404374556121916645" data-draft-node="block" data-draft-type="link-card" class=" wrap external" target="_blank" rel="nofollow noreferrer">独家 | 从拓跋迪再到赵敏郡主,这位新晋虎扑女神有点撩!</a><p>可以说这场比赛就是为某个演员量身定制的,虎扑作为一个竞技体育论坛,一个标榜专业性的篮球论坛,在自己主办的比赛中丧失体育精神,连比赛最起码的公平都做不到,实在是让人失望。</p><p>——————————————————————————————————————</p><p>这是一个虎扑jr当即重新开的投票,2000多人参与,至少也说明了一点问题吧,去年杨超越未出道不是艺人反而参加了艺人选美,今年是艺人反而不能参选,咄咄怪事,不过虎扑好像也不是第一次做这种智熄操作了</p><figure><img src="https://pic2.zhimg.com/50/v2-0109797b405787e3840f31698960456b_b.jpg" data-caption="" data-size="normal" data-rawwidth="459" data-rawheight="654" data-default-watermark-src="https://pic3.zhimg.com/50/v2-e5ed47aa5a2ecf549cdad2bb67faa1f6_b.jpg" class="origin_image zh-lightbox-thumb" width="459" data-original="https://pic2.zhimg.com/50/v2-0109797b405787e3840f31698960456b_r.jpg"></figure><a href="//link.zhihu.com/?target=https%3A//bbs.hupu.com/27512572.html" data-draft-node="block" data-draft-type="link-card" data-image="https://pic3.zhimg.com/v2-345c0bbece94f6871feed74e8721f912_180x120.jpg" data-image-width="750" data-image-height="249" class=" wrap external" target="_blank" rel="nofollow noreferrer">步行街女神投票是怎么回事?5点半的高亮全部被灭折叠?</a><a href="//link.zhihu.com/?target=https%3A//bbs.hupu.com/27513370.html" data-draft-node="block" data-draft-type="link-card" data-image="https://pic3.zhimg.com/v2-5a4acbc6b2776cc9c4253ccecd0e5fba_180x120.jpg" data-image-width="750" data-image-height="280" class=" wrap external" target="_blank" rel="nofollow noreferrer">请问版主是否有针对性的利用点亮点灭功能控制帖子舆论?</a><a href="//link.zhihu.com/?target=https%3A//bbs.hupu.com/27514498.html" data-draft-node="block" data-draft-type="link-card" data-image="https://pic2.zhimg.com/v2-ff18409a40b9b7982cded8661a7c0ff5_120x160.jpg" data-image-width="678" data-image-height="1206" class=" wrap external" target="_blank" rel="nofollow noreferrer">对虎扑点灭机制漏洞的小小质疑,为什么网友能够1分钟22灭</a><a href="//link.zhihu.com/?target=https%3A//bbs.hupu.com/27513325.html" data-draft-node="block" data-draft-type="link-card" data-image="https://pic4.zhimg.com/v2-bfdbb0f822d09975c4c60bfe2746d89b_120x160.jpg" data-image-width="800" data-image-height="1689" class=" wrap external" target="_blank" rel="nofollow noreferrer">为什么我普通的发言瞬间被灭50多亮??在虎扑杨超越三个字不能提吗?</a><figure><img src="https://pic2.zhimg.com/50/v2-b9bfa97ede870b067e4c1946389beff3_b.jpg" data-size="normal" data-rawwidth="906" data-rawheight="732" data-default-watermark-src="https://pic4.zhimg.com/50/v2-9023e9ef8703763cdf63dcb220023ee3_b.jpg" class="origin_image zh-lightbox-thumb" width="906" data-original="https://pic2.zhimg.com/50/v2-b9bfa97ede870b067e4c1946389beff3_r.jpg"><figcaption>这是虎扑的回复</figcaption></figure><figure><img src="https://pic3.zhimg.com/50/v2-75891119866bfecabd0b5e3eda0b8f6c_b.jpg" data-size="normal" data-rawwidth="663" data-rawheight="374" data-default-watermark-src="https://pic4.zhimg.com/50/v2-3f60b4b559d0a57a41a2e3bf196bbcb7_b.jpg" class="origin_image zh-lightbox-thumb" width="663" data-original="https://pic3.zhimg.com/50/v2-75891119866bfecabd0b5e3eda0b8f6c_r.jpg"><figcaption>他所谓的证据</figcaption></figure><p>篮球论坛上年得分不高的人不准参与本赛季最佳评选,说出去真的要笑死人</p><p></p></textarea> <class 'pyquery.pyquery.PyQuery'>
对比明显
则基本思路就是提取出内容,且内容为字符串类型;然后利用pyquery库的方法,去掉字符串中的各种标签和其他字符,只保留汉字内容
print(answer)结果
更新,有人指出去年得票不足20%的北鼻直接进入了大名单,而去年十六强选手李沁直接被排除出了大名单。 看杨颖的得票率 十六强最终名单有李沁 请看本次大赛规则3 主办方在制定规则时,为了针对某一个特定选手,甚至都懒得去做参赛选手合规性检查,仅凭自身喜好或者金主要求就草草确定名单,并在版友高涨的呼声中一意孤行违背民意,试问这种比赛有何公信力可言?为捧金主指定的明星,人为扫清障碍,吃相难看。 再看当日微博营销号的推送 比赛未开始就开始营销虎扑女神 次日通稿安排上 独家 | 从拓跋迪再到赵敏郡主,这位新晋虎扑女神有点撩! 可以说这场比赛就是为某个演员量身定制的,虎扑作为一个竞技体育论坛,一个标榜专业性的篮球论坛,在自己主办的比赛中丧失体育精神,连比赛最起码的公平都做不到,实在是让人失望。 —————————————————————————————————————— 这是一个虎扑jr当即重新开的投票,2000多人参与,至少也说明了一点问题吧,去年杨超越未出道不是艺人反而参加了艺人选美,今年是艺人反而不能参选,咄咄怪事,不过虎扑好像也不是第一次做这种智熄操作了 步行街女神投票是怎么回事?5点半的高亮全部被灭折叠?请问版主是否有针对性的利用点亮点灭功能控制帖子舆论?对虎扑点灭机制漏洞的小小质疑,为什么网友能够1分钟22灭为什么我普通的发言瞬间被灭50多亮??在虎扑杨超越三个字不能提吗? 这是虎扑的回复 他所谓的证据 篮球论坛上年得分不高的人不准参与本赛季最佳评选,说出去真的要笑死人
可以看出非常完美的得出了结果,相比item.find('.content').html(),消除了其他无关字符的影响。
第二步:自己利用Xpath来解析网页
import requests from lxml import etree from pyquery import PyQuery as pq url='https://www.zhihu.com/explore' headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'} response=requests.get(url,headers=headers) element=etree.HTML(response.text) print(element) questions=element.xpath('//div[@class="zm-item-rich-text expandable js-collapse-body"]//textarea[@class="content"]') for i in questions: print(i.xpath('string(.)')+ '\n')#这里得到一个<class 'lxml.etree._ElementUnicodeResult'>对象,但是在显示上和字符串一模一样,自己暂时也没有发现和字符串之间的差异 print(type(i.xpath('string(.)'))) s=str(i.xpath('string(.)'))#转换为字符串,为下一步做准备 print(type(s)) print(s) print(pq(s).text())#完美得到结果
分析:注意由于再写博客的过程中,网页不断更新,所以页面内容也在不断变化,所以下面的内容和上面的内容不一样,但是不影响实质。
print(i.xpath('string(.)')+ '\n') print(type(i.xpath('string(.)')))运行结果
<h2>『天文学专业』是什么?</h2><p>天文学是研究宇宙中各种天体以及宇宙本身的起源和演化的<b>基础自然科学学科</b>。在当前学科细化的背景下,『天文学』其实包含了很多差异比较大的子学科,而且在国内和北美有一定的区别,也和院系的『传统』程度有关。而且现代天文学和许多其他学科都有交汇,衍生出了很多交叉学科。在这里简单的介绍一下。这里用的并不是教育部或者任何官方的分类,只反映个人理解。</p><ol><li><b>天体物理学 Astrophysics</b>:<b>这是现代『天文学』的支柱,通过观测,理论,数值模拟等手段,研究不同类型的天体中的物理过程,来理解其起源和演化</b>。按照细致的领域还可以细分成恒星物理,星际介质物理,银河系,河外星系,等不同的子领域。但这些领域所需要的数学物理基础,以及相关天文课程的学习是比较一致的。这些领域之间也有很强的联系,一个合格的天文系学生应该会学习涉及所有这些领域的课程。<b>几乎所有的天文系都会提供天体物理教育</b>。<b>除了基础的数学物理训练 (应当与物理学本课程程度类似,只是侧重略有不同),天体物理学习在本科阶段还应当涉猎天体物理通识,基本的辐射机制,恒星结构和大气,星际介质物理等基础课程</b>。</li><ol><li><b>[a]: 宇宙学 Cosmology</b>:之所以把宇宙学单独列出来,不仅是因为他在天体物理学里的研究对象最独特 (宇宙本身),也是因为这个学科和理论物理学有着比较深刻的联系,需要的科学训练背景有时也会不同,尤其是<b>对热衷于理论宇宙学研究的人,需要比较深入的相对论和相关专业数学训练,并不是所有的国内外天文系都能提供相关课程</b>。现代观测宇宙学还在蓬勃的发展中,而且和天体物理观测有着极其深入的联系,未来10-20年的大量重要天文项目,核心科学目标中都有宇宙学 (DESI, LSST, WFIRST, SKA, 等等)。</li><li>[b] <b>粒子天体物理 Astroparticle Physics</b>: 这是多信使天文时代的产物。既可以通过宇宙提供的天然粒子源来研究粒子物理,也可以通过粒子物理观测来研究相应的天体物理过程。目前,高能宇宙线,中微子,以及暗物质粒子候选的直接探测都是这个交叉学科内的重要方向。<b>这个学科和天体物理比也需要更浓厚的物理背景,而和粒子物理相关的理论与实验课程在天文系中并不多见</b>。国内的重要地面和空间粒子物理项目往往都是中科院高能物理所主导的。</li><li>[c] <b>引力波天体物理</b> <b>Gravitational Wave</b> : 也许把他单独列出来还有点早,毕竟LIGO观测到引力波也就是两年前的事情,但引力波确实是独立于电磁辐射和粒子的第三种宇宙『信使』,<b>而过去极少有天文系提供足够深度的引力波相关课程。目前国内似乎中山大学在这个方向上投入很大,还有很多物理背景的院系也对这个学科有兴趣</b>。值得一提的是,引力波探测方兴未艾,里面也有很多讲究的,除了地面和空间的引力波激光干涉测量,脉冲星时序阵列 (PTA) 和射电天文学有非常紧密的结合;而原初引力波探测则是观测宇宙学的『圣杯』之一。</li><li>[d] <b>实验室天体物理 Laboratory Astrophysics</b>:这个是时常被忽略,但其实很重要的一个子学科,覆盖其实也很广,基本上任何试图在实验室中还原出天体物理环境,研究物理过程的都可以叫实验室天体物理,比如试图模拟天体中的等离子体状态,模拟尘埃在星际介质中的形成和瓦解,甚至模拟致密天体中才有的独特物态等等,和物理学交叉极为紧密。<b>目前国内从事相关教学研究的单位不算多,我只知道北京师范大学和紫金山天文台。从事这个学科的研究,也需要相对于一般天文系教学更为侧重实验物理研究的课程</b>。</li></ol><li><b>天体测量学 Astrometry</b>: 或者你也可以把他叫做『古典天文学』,是测量天体位置和运动的学科。天体测量学在历法,授时,航天等领域都有重要的现实应用。在天体物理领域上也依然起到极其基础的作用。欧空局<i>Gaia</i>天体测量卫星带来的革命就可以反映这一点。目前,无论国内国外,<b>专门提供天体测量教育的院系都不是很大,但课程设置完整的一般都会提供球面天文学课程,提供天体测量学习的敲门砖</b>。</li><li><b>天体力学 Celetial Mechanics</b>: 这是研究引力作用下天体运动规律的学科,祖师爷是牛顿,是『经典天文学』的核心部分。现代背景下,天体力学在理论方面和数学有很强的结合,很多理论天体力学问题都是艰深的数学问题 (e.g. 太阳系的长期稳定性?)。在现实应用上,天体力学涉及到不同精度下,对不同复杂程度系统的轨道计算。在航天领域有非常强的应用背景。比如南京大学天文学与空间科学学院的天体力学组就为我国载人航天,嫦娥登月等。<b>也正因为此,国内专门开设完整课程,提供到研究生层次的天体力学教育的院系并不多,但很多和航天相关的专业也会提供一定的应用课程</b> (e.g. 卫星轨道计算)。值得一提的是,天体力学在行星科学和天体物理研究中依然扮演着很重要的作用,比如最近和热门的『第九行星』(Planet 9),就是通过天体力学模拟太阳系得出的预测。</li><li><b>太阳物理 Solar Physics and Space Science</b>: 太阳物理承载了天体物理的起源,我们对天体物理辐射机制以及恒星大气模型,结构模型的认识都是从太阳开始的。但是随着研究的细化,目前太阳物理研究已经可以独立成一个子学科了,至少在NASA科研资金分配上,天体物理和太阳物理是分开的。在科学上,太阳物理研究重点是太阳大气中磁场约束下的等离子体的各种活动,所以<b>在学习上非常强调流体力学,磁流体力学相关的理论和计算课程</b>;在应用上,太阳物理和日常生活关系紧密,尤其是在航天时代,对空间等离子体,空间『天气』的研究也是以太阳物理为基础的。<b>并不是所有的天文系都提供太阳物理教育,而且很多国内外大学的太阳物理研究是在空间科学名下的</b>。</li><li><b>行星科学 Planetary Science</b>: 粗略讲,是研究太阳系内其他行星,卫星,小天体的学科。严格来说,行星科学早就不是天文学的『子学科』了,从探测手段到研究方法上,行星科学通过与空间探测结合,和地质,大气,土壤,水文,甚至生物等学科的交叉,已经发展成一个独立的大领域了。NASA的科研资金分给行星科学的永远都比天体物理的多。。。这里专门提到,是因为在研究方法上和天文观测的交叉很大。比如太阳系小天体以及太阳系外围天体的发现都是来自于天文巡天观测,很多行星的大气活动也需要地面和空间的红外观测,等等。<b>在学习上,行星科学需要的背景知识更为宽广,很多内容是一般天文系所不能提供的。国内情况我了解不多,但是在北美,已经有不少学校独立建设行星科学院系了。</b></li><li><b>系外行星科学和天体生物学 Exoplanet and Astrobiology: </b>把这两个学科单独列出来不仅是因为他们的影响力在日益提高,大有希望和太阳与行星物理一样,从天体物理中独立出来自立门户,也是因为这两个都是和其他学科交叉度很高的新兴学科。系外行星科学随着大量系外行星系统的发现已经成为天文学内最热门的子领域之一。虽然目前从事系外行星研究主要还是涉及通过不同天文观测手段发现并描绘系外行星系统,但随着观测技术的进步,研究系外行星大气成分等目标成为现实,这个领域也将和行星科学,地球科学有进一步的交叉。目前,我所在的加州大学圣克鲁兹分校就在筹划一个新的系外行星和天体生物学研究机构。</li></ol><h2>国内天文专业设置</h2><p>关于国内天文专业的基本设置,刘博洋的这个答案已经非常全面了:</p><a href="https://www.zhihu.com/question/315167785/answer/618785765" data-draft-node="block" data-draft-type="link-card" class="internal">喜欢天文但是国内大学很少有天文系该怎么办?</a><p>主要的变化是清华大学已经正式成立了天文系。这里只是想尽量客观的说几点:</p><ol><li><b>国内的天文学专业这几年发展很快,但规模远远不够</b>。除了南大,北大,中科大,北师大,以及中科院大学外,其他天文专业的历史都很短。在几大基础学科当中,天文学科在国内的发展状况最滞后。简单来说,在美国基本你知道的大学都会有天文系或者天文学科,而且很多你可能完全不了解的排名100开外的大学里都有水平不错,或者至少很有特色的天文学科。国家如果再基础学科领域保持投入的话,国内天文界会进一步的壮大,也应该会有更多的天文系和天文专业。</li><li><b>国内已有的天文系中,领域覆盖的深度和广度都还远远不够</b>。考虑到大部分天文系年轻的历史,这也是不奇怪的,但是在目前有天文学专业的学校里,能够提供完整的基础天体物理课程的非常有限;能够在教学和科研上覆盖两个以上上面提到子领域的院校也非常有限。实话实说,很多地方院校设立天文专业是有些草率的,很可能是依托于某个项目或者几个教授开始的。像清华大学这样靠天体物理中心运作多年,对主要发展方向有了认识,已经有了一定的规模和声誉后转为天文系才是比较靠谱的做法。</li><li><b>国内天文专业里的新军里,也有特点鲜明,主攻方向上实力强劲的新兴力量</b>。厦门大学目前在高能天体物理,尤其是X-ray观测研究上很有实力;而按照我日本同行的说法『亚洲』最好的宇宙学专业,过几年很可能属于上海交通大学。国内各个领域发展都挺快的,很多学校也都值得关注。</li><li><b>在现在国内环境下,谈天文系排名没有太大意义</b>。<b>一方面,前面说了,整体规模太小,资历太浅。</b>10个人的公司弄5个经理有啥意思?<b>另一方面,学校排名和专业排名相关性太好,而学校排名大家心里都清楚。</b>在美国情况是很不一样的,比如我所在的加州大学圣克鲁兹分校,学校说二流算抬举他了,却有一个北美数一数二的天文系;亚利桑那大学综合排名也不高,但天文系超强;因为这样的例子存在,在选择学校和选择专业之间,往往需要仔细考虑。而国内目前还没有这样的情况,基本上是学校综合实力越强,越有钱,天文专业发展也会越好。<b>更重要的是,在国家尺度上发展天文学科,不是选秀才,而更像是培养一支后备军,需要越来越多的院校的参与,需要更多的经过基础天文教育和训练的各种类型的人才</b>。地方院校的广泛参与,意义会变得越来越大。</li></ol><h2>就业前景</h2><p><b>一个坏消息是,如果你想成为『天文学家』,或者说成为职业从事天文研究的教授或者研究员,那么求职路上挑战很大;一个好消息是,接受过完整的天文教育后,你依然有机会从事其他各种职业。</b></p><p>在职业科研方向上,随着国内天文学学科的持续发展,一个利好消息是可能会有更多的天文教职和科研职位出现。这和北美大学天文职位早就饱和的普遍情况形成鲜明对比。当然,不同院校的待遇和科研条件差别很大。即便在国内,能够进入顶尖院校和科研单位的机会依然是需要付出相当的努力争取来的。</p><p>另外,国内天文专业还有一点不同,像南京大学,紫金山天文台,国家天文台都能培养在航天领域大有用武之地的专业人才。这些天文系的毕业生中进入航天和相关部门工作的比例不是很低。</p><p>在其他职业方向上,天文学专业的毕业生职业选择五花八门,在金融,IT,教育领域的不少。这里的选择更多的是考虑个人兴趣以及社会关系等。但『转行』带来的负面影响,尤其是在和大量相关专业应届生的竞争中,也是需要个人努力来弥补的。在北美,天体物理专业的博士生转行很受需要数据科学家的企业欢迎,能够进入金融领域的也不少。这本质上是一种对PhD专业训练的信任,拿到天体物理PhD意味着你逻辑思考能力,发现和解决问题的能力都不低,即便专业完全不对口也值得考虑。在国内似乎这种信任还不是很好,转行的难度可能也要相应大一些。</p><p>有些人喜欢强调,天体物理学习中XXX训练对XXX职业其实很有帮助,我觉得这些其实都还是有夸大的。作为基本没有现实应用的基础学科,也很难说某项教学或者训练有非常强烈的现实应用。天文学家在科研中使用的技术,一方面是为了解决天文问题专门定制的,一方面也是收到天文学界内部的互相影响,有强烈的趋同性的,并不会考虑某个方法或者编程语言更有用,更流行。<b>整体来说,天文学家的数学和编程水平都远低于真正的专业水平,也有很多落后和不好的习惯。这是过去天体物理研究数据和人员规模小有关的。随着天文学不断发展壮大,合作持续开放和深入,这些状况都在慢慢改善 (比如近些年在软件规范,项目组织上的进步),但作为刚『入行』的学生,应该有清醒的认识,仅仅达到某个天文领域所需要的数学,统计,编程水平,很可能完全不足以保证你在相关领域内找到工作。</b>具体还是要看个人的付出和选择的。</p><p></p> <class 'lxml.etree._ElementUnicodeResult'>
print(type(s)) print(s)运行结果
<class 'str'> <h2>『天文学专业』是什么?</h2><p>天文学是研究宇宙中各种天体以及宇宙本身的起源和演化的<b>基础自然科学学科</b>。在当前学科细化的背景下,『天文学』其实包含了很多差异比较大的子学科,而且在国内和北美有一定的区别,也和院系的『传统』程度有关。而且现代天文学和许多其他学科都有交汇,衍生出了很多交叉学科。在这里简单的介绍一下。这里用的并不是教育部或者任何官方的分类,只反映个人理解。</p><ol><li><b>天体物理学 Astrophysics</b>:<b>这是现代『天文学』的支柱,通过观测,理论,数值模拟等手段,研究不同类型的天体中的物理过程,来理解其起源和演化</b>。按照细致的领域还可以细分成恒星物理,星际介质物理,银河系,河外星系,等不同的子领域。但这些领域所需要的数学物理基础,以及相关天文课程的学习是比较一致的。这些领域之间也有很强的联系,一个合格的天文系学生应该会学习涉及所有这些领域的课程。<b>几乎所有的天文系都会提供天体物理教育</b>。<b>除了基础的数学物理训练 (应当与物理学本课程程度类似,只是侧重略有不同),天体物理学习在本科阶段还应当涉猎天体物理通识,基本的辐射机制,恒星结构和大气,星际介质物理等基础课程</b>。</li><ol><li><b>[a]: 宇宙学 Cosmology</b>:之所以把宇宙学单独列出来,不仅是因为他在天体物理学里的研究对象最独特 (宇宙本身),也是因为这个学科和理论物理学有着比较深刻的联系,需要的科学训练背景有时也会不同,尤其是<b>对热衷于理论宇宙学研究的人,需要比较深入的相对论和相关专业数学训练,并不是所有的国内外天文系都能提供相关课程</b>。现代观测宇宙学还在蓬勃的发展中,而且和天体物理观测有着极其深入的联系,未来10-20年的大量重要天文项目,核心科学目标中都有宇宙学 (DESI, LSST, WFIRST, SKA, 等等)。</li><li>[b] <b>粒子天体物理 Astroparticle Physics</b>: 这是多信使天文时代的产物。既可以通过宇宙提供的天然粒子源来研究粒子物理,也可以通过粒子物理观测来研究相应的天体物理过程。目前,高能宇宙线,中微子,以及暗物质粒子候选的直接探测都是这个交叉学科内的重要方向。<b>这个学科和天体物理比也需要更浓厚的物理背景,而和粒子物理相关的理论与实验课程在天文系中并不多见</b>。国内的重要地面和空间粒子物理项目往往都是中科院高能物理所主导的。</li><li>[c] <b>引力波天体物理</b> <b>Gravitational Wave</b> : 也许把他单独列出来还有点早,毕竟LIGO观测到引力波也就是两年前的事情,但引力波确实是独立于电磁辐射和粒子的第三种宇宙『信使』,<b>而过去极少有天文系提供足够深度的引力波相关课程。目前国内似乎中山大学在这个方向上投入很大,还有很多物理背景的院系也对这个学科有兴趣</b>。值得一提的是,引力波探测方兴未艾,里面也有很多讲究的,除了地面和空间的引力波激光干涉测量,脉冲星时序阵列 (PTA) 和射电天文学有非常紧密的结合;而原初引力波探测则是观测宇宙学的『圣杯』之一。</li><li>[d] <b>实验室天体物理 Laboratory Astrophysics</b>:这个是时常被忽略,但其实很重要的一个子学科,覆盖其实也很广,基本上任何试图在实验室中还原出天体物理环境,研究物理过程的都可以叫实验室天体物理,比如试图模拟天体中的等离子体状态,模拟尘埃在星际介质中的形成和瓦解,甚至模拟致密天体中才有的独特物态等等,和物理学交叉极为紧密。<b>目前国内从事相关教学研究的单位不算多,我只知道北京师范大学和紫金山天文台。从事这个学科的研究,也需要相对于一般天文系教学更为侧重实验物理研究的课程</b>。</li></ol><li><b>天体测量学 Astrometry</b>: 或者你也可以把他叫做『古典天文学』,是测量天体位置和运动的学科。天体测量学在历法,授时,航天等领域都有重要的现实应用。在天体物理领域上也依然起到极其基础的作用。欧空局<i>Gaia</i>天体测量卫星带来的革命就可以反映这一点。目前,无论国内国外,<b>专门提供天体测量教育的院系都不是很大,但课程设置完整的一般都会提供球面天文学课程,提供天体测量学习的敲门砖</b>。</li><li><b>天体力学 Celetial Mechanics</b>: 这是研究引力作用下天体运动规律的学科,祖师爷是牛顿,是『经典天文学』的核心部分。现代背景下,天体力学在理论方面和数学有很强的结合,很多理论天体力学问题都是艰深的数学问题 (e.g. 太阳系的长期稳定性?)。在现实应用上,天体力学涉及到不同精度下,对不同复杂程度系统的轨道计算。在航天领域有非常强的应用背景。比如南京大学天文学与空间科学学院的天体力学组就为我国载人航天,嫦娥登月等。<b>也正因为此,国内专门开设完整课程,提供到研究生层次的天体力学教育的院系并不多,但很多和航天相关的专业也会提供一定的应用课程</b> (e.g. 卫星轨道计算)。值得一提的是,天体力学在行星科学和天体物理研究中依然扮演着很重要的作用,比如最近和热门的『第九行星』(Planet 9),就是通过天体力学模拟太阳系得出的预测。</li><li><b>太阳物理 Solar Physics and Space Science</b>: 太阳物理承载了天体物理的起源,我们对天体物理辐射机制以及恒星大气模型,结构模型的认识都是从太阳开始的。但是随着研究的细化,目前太阳物理研究已经可以独立成一个子学科了,至少在NASA科研资金分配上,天体物理和太阳物理是分开的。在科学上,太阳物理研究重点是太阳大气中磁场约束下的等离子体的各种活动,所以<b>在学习上非常强调流体力学,磁流体力学相关的理论和计算课程</b>;在应用上,太阳物理和日常生活关系紧密,尤其是在航天时代,对空间等离子体,空间『天气』的研究也是以太阳物理为基础的。<b>并不是所有的天文系都提供太阳物理教育,而且很多国内外大学的太阳物理研究是在空间科学名下的</b>。</li><li><b>行星科学 Planetary Science</b>: 粗略讲,是研究太阳系内其他行星,卫星,小天体的学科。严格来说,行星科学早就不是天文学的『子学科』了,从探测手段到研究方法上,行星科学通过与空间探测结合,和地质,大气,土壤,水文,甚至生物等学科的交叉,已经发展成一个独立的大领域了。NASA的科研资金分给行星科学的永远都比天体物理的多。。。这里专门提到,是因为在研究方法上和天文观测的交叉很大。比如太阳系小天体以及太阳系外围天体的发现都是来自于天文巡天观测,很多行星的大气活动也需要地面和空间的红外观测,等等。<b>在学习上,行星科学需要的背景知识更为宽广,很多内容是一般天文系所不能提供的。国内情况我了解不多,但是在北美,已经有不少学校独立建设行星科学院系了。</b></li><li><b>系外行星科学和天体生物学 Exoplanet and Astrobiology: </b>把这两个学科单独列出来不仅是因为他们的影响力在日益提高,大有希望和太阳与行星物理一样,从天体物理中独立出来自立门户,也是因为这两个都是和其他学科交叉度很高的新兴学科。系外行星科学随着大量系外行星系统的发现已经成为天文学内最热门的子领域之一。虽然目前从事系外行星研究主要还是涉及通过不同天文观测手段发现并描绘系外行星系统,但随着观测技术的进步,研究系外行星大气成分等目标成为现实,这个领域也将和行星科学,地球科学有进一步的交叉。目前,我所在的加州大学圣克鲁兹分校就在筹划一个新的系外行星和天体生物学研究机构。</li></ol><h2>国内天文专业设置</h2><p>关于国内天文专业的基本设置,刘博洋的这个答案已经非常全面了:</p><a href="https://www.zhihu.com/question/315167785/answer/618785765" data-draft-node="block" data-draft-type="link-card" class="internal">喜欢天文但是国内大学很少有天文系该怎么办?</a><p>主要的变化是清华大学已经正式成立了天文系。这里只是想尽量客观的说几点:</p><ol><li><b>国内的天文学专业这几年发展很快,但规模远远不够</b>。除了南大,北大,中科大,北师大,以及中科院大学外,其他天文专业的历史都很短。在几大基础学科当中,天文学科在国内的发展状况最滞后。简单来说,在美国基本你知道的大学都会有天文系或者天文学科,而且很多你可能完全不了解的排名100开外的大学里都有水平不错,或者至少很有特色的天文学科。国家如果再基础学科领域保持投入的话,国内天文界会进一步的壮大,也应该会有更多的天文系和天文专业。</li><li><b>国内已有的天文系中,领域覆盖的深度和广度都还远远不够</b>。考虑到大部分天文系年轻的历史,这也是不奇怪的,但是在目前有天文学专业的学校里,能够提供完整的基础天体物理课程的非常有限;能够在教学和科研上覆盖两个以上上面提到子领域的院校也非常有限。实话实说,很多地方院校设立天文专业是有些草率的,很可能是依托于某个项目或者几个教授开始的。像清华大学这样靠天体物理中心运作多年,对主要发展方向有了认识,已经有了一定的规模和声誉后转为天文系才是比较靠谱的做法。</li><li><b>国内天文专业里的新军里,也有特点鲜明,主攻方向上实力强劲的新兴力量</b>。厦门大学目前在高能天体物理,尤其是X-ray观测研究上很有实力;而按照我日本同行的说法『亚洲』最好的宇宙学专业,过几年很可能属于上海交通大学。国内各个领域发展都挺快的,很多学校也都值得关注。</li><li><b>在现在国内环境下,谈天文系排名没有太大意义</b>。<b>一方面,前面说了,整体规模太小,资历太浅。</b>10个人的公司弄5个经理有啥意思?<b>另一方面,学校排名和专业排名相关性太好,而学校排名大家心里都清楚。</b>在美国情况是很不一样的,比如我所在的加州大学圣克鲁兹分校,学校说二流算抬举他了,却有一个北美数一数二的天文系;亚利桑那大学综合排名也不高,但天文系超强;因为这样的例子存在,在选择学校和选择专业之间,往往需要仔细考虑。而国内目前还没有这样的情况,基本上是学校综合实力越强,越有钱,天文专业发展也会越好。<b>更重要的是,在国家尺度上发展天文学科,不是选秀才,而更像是培养一支后备军,需要越来越多的院校的参与,需要更多的经过基础天文教育和训练的各种类型的人才</b>。地方院校的广泛参与,意义会变得越来越大。</li></ol><h2>就业前景</h2><p><b>一个坏消息是,如果你想成为『天文学家』,或者说成为职业从事天文研究的教授或者研究员,那么求职路上挑战很大;一个好消息是,接受过完整的天文教育后,你依然有机会从事其他各种职业。</b></p><p>在职业科研方向上,随着国内天文学学科的持续发展,一个利好消息是可能会有更多的天文教职和科研职位出现。这和北美大学天文职位早就饱和的普遍情况形成鲜明对比。当然,不同院校的待遇和科研条件差别很大。即便在国内,能够进入顶尖院校和科研单位的机会依然是需要付出相当的努力争取来的。</p><p>另外,国内天文专业还有一点不同,像南京大学,紫金山天文台,国家天文台都能培养在航天领域大有用武之地的专业人才。这些天文系的毕业生中进入航天和相关部门工作的比例不是很低。</p><p>在其他职业方向上,天文学专业的毕业生职业选择五花八门,在金融,IT,教育领域的不少。这里的选择更多的是考虑个人兴趣以及社会关系等。但『转行』带来的负面影响,尤其是在和大量相关专业应届生的竞争中,也是需要个人努力来弥补的。在北美,天体物理专业的博士生转行很受需要数据科学家的企业欢迎,能够进入金融领域的也不少。这本质上是一种对PhD专业训练的信任,拿到天体物理PhD意味着你逻辑思考能力,发现和解决问题的能力都不低,即便专业完全不对口也值得考虑。在国内似乎这种信任还不是很好,转行的难度可能也要相应大一些。</p><p>有些人喜欢强调,天体物理学习中XXX训练对XXX职业其实很有帮助,我觉得这些其实都还是有夸大的。作为基本没有现实应用的基础学科,也很难说某项教学或者训练有非常强烈的现实应用。天文学家在科研中使用的技术,一方面是为了解决天文问题专门定制的,一方面也是收到天文学界内部的互相影响,有强烈的趋同性的,并不会考虑某个方法或者编程语言更有用,更流行。<b>整体来说,天文学家的数学和编程水平都远低于真正的专业水平,也有很多落后和不好的习惯。这是过去天体物理研究数据和人员规模小有关的。随着天文学不断发展壮大,合作持续开放和深入,这些状况都在慢慢改善 (比如近些年在软件规范,项目组织上的进步),但作为刚『入行』的学生,应该有清醒的认识,仅仅达到某个天文领域所需要的数学,统计,编程水平,很可能完全不足以保证你在相关领域内找到工作。</b>具体还是要看个人的付出和选择的。</p><p></p>
自己感觉print(s)和print(i.xpath('string(.)')+ '\n')结果完全一致,但是就是类型不一样,这里现在依然很疑惑?
虽然print(s)和print(i.xpath('string(.)')+ '\n')已经很接近结果,但是其中含有大量无关的字符,在查找了大量有关xpath的文件后,没有找到合适的方法,所以自己就想到利用pyquery的方法来进行处理。
首先就是将i.xpath('string(.)')+ '\n'转换为字符串,然后再使用pyquery来处理。
即
print(pq(s).text())的运行结果
『天文学专业』是什么? 天文学是研究宇宙中各种天体以及宇宙本身的起源和演化的基础自然科学学科。在当前学科细化的背景下,『天文学』其实包含了很多差异比较大的子学科,而且在国内和北美有一定的区别,也和院系的『传统』程度有关。而且现代天文学和许多其他学科都有交汇,衍生出了很多交叉学科。在这里简单的介绍一下。这里用的并不是教育部或者任何官方的分类,只反映个人理解。 天体物理学 Astrophysics:这是现代『天文学』的支柱,通过观测,理论,数值模拟等手段,研究不同类型的天体中的物理过程,来理解其起源和演化。按照细致的领域还可以细分成恒星物理,星际介质物理,银河系,河外星系,等不同的子领域。但这些领域所需要的数学物理基础,以及相关天文课程的学习是比较一致的。这些领域之间也有很强的联系,一个合格的天文系学生应该会学习涉及所有这些领域的课程。几乎所有的天文系都会提供天体物理教育。除了基础的数学物理训练 (应当与物理学本课程程度类似,只是侧重略有不同),天体物理学习在本科阶段还应当涉猎天体物理通识,基本的辐射机制,恒星结构和大气,星际介质物理等基础课程。 [a]: 宇宙学 Cosmology:之所以把宇宙学单独列出来,不仅是因为他在天体物理学里的研究对象最独特 (宇宙本身),也是因为这个学科和理论物理学有着比较深刻的联系,需要的科学训练背景有时也会不同,尤其是对热衷于理论宇宙学研究的人,需要比较深入的相对论和相关专业数学训练,并不是所有的国内外天文系都能提供相关课程。现代观测宇宙学还在蓬勃的发展中,而且和天体物理观测有着极其深入的联系,未来10-20年的大量重要天文项目,核心科学目标中都有宇宙学 (DESI, LSST, WFIRST, SKA, 等等)。 [b] 粒子天体物理 Astroparticle Physics: 这是多信使天文时代的产物。既可以通过宇宙提供的天然粒子源来研究粒子物理,也可以通过粒子物理观测来研究相应的天体物理过程。目前,高能宇宙线,中微子,以及暗物质粒子候选的直接探测都是这个交叉学科内的重要方向。这个学科和天体物理比也需要更浓厚的物理背景,而和粒子物理相关的理论与实验课程在天文系中并不多见。国内的重要地面和空间粒子物理项目往往都是中科院高能物理所主导的。 [c] 引力波天体物理 Gravitational Wave : 也许把他单独列出来还有点早,毕竟LIGO观测到引力波也就是两年前的事情,但引力波确实是独立于电磁辐射和粒子的第三种宇宙『信使』,而过去极少有天文系提供足够深度的引力波相关课程。目前国内似乎中山大学在这个方向上投入很大,还有很多物理背景的院系也对这个学科有兴趣。值得一提的是,引力波探测方兴未艾,里面也有很多讲究的,除了地面和空间的引力波激光干涉测量,脉冲星时序阵列 (PTA) 和射电天文学有非常紧密的结合;而原初引力波探测则是观测宇宙学的『圣杯』之一。 [d] 实验室天体物理 Laboratory Astrophysics:这个是时常被忽略,但其实很重要的一个子学科,覆盖其实也很广,基本上任何试图在实验室中还原出天体物理环境,研究物理过程的都可以叫实验室天体物理,比如试图模拟天体中的等离子体状态,模拟尘埃在星际介质中的形成和瓦解,甚至模拟致密天体中才有的独特物态等等,和物理学交叉极为紧密。目前国内从事相关教学研究的单位不算多,我只知道北京师范大学和紫金山天文台。从事这个学科的研究,也需要相对于一般天文系教学更为侧重实验物理研究的课程。 天体测量学 Astrometry: 或者你也可以把他叫做『古典天文学』,是测量天体位置和运动的学科。天体测量学在历法,授时,航天等领域都有重要的现实应用。在天体物理领域上也依然起到极其基础的作用。欧空局Gaia天体测量卫星带来的革命就可以反映这一点。目前,无论国内国外,专门提供天体测量教育的院系都不是很大,但课程设置完整的一般都会提供球面天文学课程,提供天体测量学习的敲门砖。 天体力学 Celetial Mechanics: 这是研究引力作用下天体运动规律的学科,祖师爷是牛顿,是『经典天文学』的核心部分。现代背景下,天体力学在理论方面和数学有很强的结合,很多理论天体力学问题都是艰深的数学问题 (e.g. 太阳系的长期稳定性?)。在现实应用上,天体力学涉及到不同精度下,对不同复杂程度系统的轨道计算。在航天领域有非常强的应用背景。比如南京大学天文学与空间科学学院的天体力学组就为我国载人航天,嫦娥登月等。也正因为此,国内专门开设完整课程,提供到研究生层次的天体力学教育的院系并不多,但很多和航天相关的专业也会提供一定的应用课程 (e.g. 卫星轨道计算)。值得一提的是,天体力学在行星科学和天体物理研究中依然扮演着很重要的作用,比如最近和热门的『第九行星』(Planet 9),就是通过天体力学模拟太阳系得出的预测。 太阳物理 Solar Physics and Space Science: 太阳物理承载了天体物理的起源,我们对天体物理辐射机制以及恒星大气模型,结构模型的认识都是从太阳开始的。但是随着研究的细化,目前太阳物理研究已经可以独立成一个子学科了,至少在NASA科研资金分配上,天体物理和太阳物理是分开的。在科学上,太阳物理研究重点是太阳大气中磁场约束下的等离子体的各种活动,所以在学习上非常强调流体力学,磁流体力学相关的理论和计算课程;在应用上,太阳物理和日常生活关系紧密,尤其是在航天时代,对空间等离子体,空间『天气』的研究也是以太阳物理为基础的。并不是所有的天文系都提供太阳物理教育,而且很多国内外大学的太阳物理研究是在空间科学名下的。 行星科学 Planetary Science: 粗略讲,是研究太阳系内其他行星,卫星,小天体的学科。严格来说,行星科学早就不是天文学的『子学科』了,从探测手段到研究方法上,行星科学通过与空间探测结合,和地质,大气,土壤,水文,甚至生物等学科的交叉,已经发展成一个独立的大领域了。NASA的科研资金分给行星科学的永远都比天体物理的多。。。这里专门提到,是因为在研究方法上和天文观测的交叉很大。比如太阳系小天体以及太阳系外围天体的发现都是来自于天文巡天观测,很多行星的大气活动也需要地面和空间的红外观测,等等。在学习上,行星科学需要的背景知识更为宽广,很多内容是一般天文系所不能提供的。国内情况我了解不多,但是在北美,已经有不少学校独立建设行星科学院系了。 系外行星科学和天体生物学 Exoplanet and Astrobiology: 把这两个学科单独列出来不仅是因为他们的影响力在日益提高,大有希望和太阳与行星物理一样,从天体物理中独立出来自立门户,也是因为这两个都是和其他学科交叉度很高的新兴学科。系外行星科学随着大量系外行星系统的发现已经成为天文学内最热门的子领域之一。虽然目前从事系外行星研究主要还是涉及通过不同天文观测手段发现并描绘系外行星系统,但随着观测技术的进步,研究系外行星大气成分等目标成为现实,这个领域也将和行星科学,地球科学有进一步的交叉。目前,我所在的加州大学圣克鲁兹分校就在筹划一个新的系外行星和天体生物学研究机构。 国内天文专业设置 关于国内天文专业的基本设置,刘博洋的这个答案已经非常全面了: 喜欢天文但是国内大学很少有天文系该怎么办? 主要的变化是清华大学已经正式成立了天文系。这里只是想尽量客观的说几点: 国内的天文学专业这几年发展很快,但规模远远不够。除了南大,北大,中科大,北师大,以及中科院大学外,其他天文专业的历史都很短。在几大基础学科当中,天文学科在国内的发展状况最滞后。简单来说,在美国基本你知道的大学都会有天文系或者天文学科,而且很多你可能完全不了解的排名100开外的大学里都有水平不错,或者至少很有特色的天文学科。国家如果再基础学科领域保持投入的话,国内天文界会进一步的壮大,也应该会有更多的天文系和天文专业。 国内已有的天文系中,领域覆盖的深度和广度都还远远不够。考虑到大部分天文系年轻的历史,这也是不奇怪的,但是在目前有天文学专业的学校里,能够提供完整的基础天体物理课程的非常有限;能够在教学和科研上覆盖两个以上上面提到子领域的院校也非常有限。实话实说,很多地方院校设立天文专业是有些草率的,很可能是依托于某个项目或者几个教授开始的。像清华大学这样靠天体物理中心运作多年,对主要发展方向有了认识,已经有了一定的规模和声誉后转为天文系才是比较靠谱的做法。 国内天文专业里的新军里,也有特点鲜明,主攻方向上实力强劲的新兴力量。厦门大学目前在高能天体物理,尤其是X-ray观测研究上很有实力;而按照我日本同行的说法『亚洲』最好的宇宙学专业,过几年很可能属于上海交通大学。国内各个领域发展都挺快的,很多学校也都值得关注。 在现在国内环境下,谈天文系排名没有太大意义。一方面,前面说了,整体规模太小,资历太浅。10个人的公司弄5个经理有啥意思?另一方面,学校排名和专业排名相关性太好,而学校排名大家心里都清楚。在美国情况是很不一样的,比如我所在的加州大学圣克鲁兹分校,学校说二流算抬举他了,却有一个北美数一数二的天文系;亚利桑那大学综合排名也不高,但天文系超强;因为这样的例子存在,在选择学校和选择专业之间,往往需要仔细考虑。而国内目前还没有这样的情况,基本上是学校综合实力越强,越有钱,天文专业发展也会越好。更重要的是,在国家尺度上发展天文学科,不是选秀才,而更像是培养一支后备军,需要越来越多的院校的参与,需要更多的经过基础天文教育和训练的各种类型的人才。地方院校的广泛参与,意义会变得越来越大。 就业前景 一个坏消息是,如果你想成为『天文学家』,或者说成为职业从事天文研究的教授或者研究员,那么求职路上挑战很大;一个好消息是,接受过完整的天文教育后,你依然有机会从事其他各种职业。 在职业科研方向上,随着国内天文学学科的持续发展,一个利好消息是可能会有更多的天文教职和科研职位出现。这和北美大学天文职位早就饱和的普遍情况形成鲜明对比。当然,不同院校的待遇和科研条件差别很大。即便在国内,能够进入顶尖院校和科研单位的机会依然是需要付出相当的努力争取来的。 另外,国内天文专业还有一点不同,像南京大学,紫金山天文台,国家天文台都能培养在航天领域大有用武之地的专业人才。这些天文系的毕业生中进入航天和相关部门工作的比例不是很低。 在其他职业方向上,天文学专业的毕业生职业选择五花八门,在金融,IT,教育领域的不少。这里的选择更多的是考虑个人兴趣以及社会关系等。但『转行』带来的负面影响,尤其是在和大量相关专业应届生的竞争中,也是需要个人努力来弥补的。在北美,天体物理专业的博士生转行很受需要数据科学家的企业欢迎,能够进入金融领域的也不少。这本质上是一种对PhD专业训练的信任,拿到天体物理PhD意味着你逻辑思考能力,发现和解决问题的能力都不低,即便专业完全不对口也值得考虑。在国内似乎这种信任还不是很好,转行的难度可能也要相应大一些。 有些人喜欢强调,天体物理学习中XXX训练对XXX职业其实很有帮助,我觉得这些其实都还是有夸大的。作为基本没有现实应用的基础学科,也很难说某项教学或者训练有非常强烈的现实应用。天文学家在科研中使用的技术,一方面是为了解决天文问题专门定制的,一方面也是收到天文学界内部的互相影响,有强烈的趋同性的,并不会考虑某个方法或者编程语言更有用,更流行。整体来说,天文学家的数学和编程水平都远低于真正的专业水平,也有很多落后和不好的习惯。这是过去天体物理研究数据和人员规模小有关的。随着天文学不断发展壮大,合作持续开放和深入,这些状况都在慢慢改善 (比如近些年在软件规范,项目组织上的进步),但作为刚『入行』的学生,应该有清醒的认识,仅仅达到某个天文领域所需要的数学,统计,编程水平,很可能完全不足以保证你在相关领域内找到工作。具体还是要看个人的付出和选择的。
综上所述,完美的解决了单独使用xpath得到的结果中含有大量无关字符的问题。
其他收获
收获一
首先看代码
import requests from lxml import etree from pyquery import PyQuery as pq url='https://www.zhihu.com/explore' headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'} response=requests.get(url,headers=headers) element=etree.HTML(response.text) print(element) questions=element.xpath('//div[@class="zm-item-rich-text expandable js-collapse-body"]//textarea[@class="content"]') for i in questions: print(i) print(type(i)) print(i.xpath('text()')) print(type(i.xpath('text()'))) print(i.xpath('string(.)') + '\n') print(type(i.xpath('string(.)'))) print('\n' + '=' * 50 + '\n')
部分运行结果
<Element html at 0x224f5ff8648> <Element textarea at 0x224f61f2308> <class 'lxml.etree._Element'> ['<h2>『天文学专业』是什么?</h2><p>天文学是研究宇宙中各种天体以及宇宙本身的起源和演化的<b>基础自然科学学科</b>。在当前学科细化的背景下,『天文学』其实包含了很多差异比较大的子学科,而且在国内和北美有一定的区别,也和院系的『传统』程度有关。而且现代天文学和许多其他学科都有交汇,衍生出了很多交叉学科。在这里简单的介绍一下。这里用的并不是教育部或者任何官方的分类,只反映个人理解。</p><ol><li><b>天体物理学 Astrophysics</b>:<b>这是现代『天文学』的支柱,通过观测,理论,数值模拟等手段,研究不同类型的天体中的物理过程,来理解其起源和演化</b>。按照细致的领域还可以细分成恒星物理,星际介质物理,银河系,河外星系,等不同的子领域。但这些领域所需要的数学物理基础,以及相关天文课程的学习是比较一致的。这些领域之间也有很强的联系,一个合格的天文系学生应该会学习涉及所有这些领域的课程。<b>几乎所有的天文系都会提供天体物理教育</b>。<b>除了基础的数学物理训练 (应当与物理学本课程程度类似,只是侧重略有不同),天体物理学习在本科阶段还应当涉猎天体物理通识,基本的辐射机制,恒星结构和大气,星际介质物理等基础课程</b>。</li><ol><li><b>[a]: 宇宙学 Cosmology</b>:之所以把宇宙学单独列出来,不仅是因为他在天体物理学里的研究对象最独特 (宇宙本身),也是因为这个学科和理论物理学有着比较深刻的联系,需要的科学训练背景有时也会不同,尤其是<b>对热衷于理论宇宙学研究的人,需要比较深入的相对论和相关专业数学训练,并不是所有的国内外天文系都能提供相关课程</b>。现代观测宇宙学还在蓬勃的发展中,而且和天体物理观测有着极其深入的联系,未来10-20年的大量重要天文项目,核心科学目标中都有宇宙学 (DESI, LSST, WFIRST, SKA, 等等)。</li><li>[b] <b>粒子天体物理 Astroparticle Physics</b>: 这是多信使天文时代的产物。既可以通过宇宙提供的天然粒子源来研究粒子物理,也可以通过粒子物理观测来研究相应的天体物理过程。目前,高能宇宙线,中微子,以及暗物质粒子候选的直接探测都是这个交叉学科内的重要方向。<b>这个学科和天体物理比也需要更浓厚的物理背景,而和粒子物理相关的理论与实验课程在天文系中并不多见</b>。国内的重要地面和空间粒子物理项目往往都是中科院高能物理所主导的。</li><li>[c] <b>引力波天体物理</b> <b>Gravitational Wave</b> : 也许把他单独列出来还有点早,毕竟LIGO观测到引力波也就是两年前的事情,但引力波确实是独立于电磁辐射和粒子的第三种宇宙『信使』,<b>而过去极少有天文系提供足够深度的引力波相关课程。目前国内似乎中山大学在这个方向上投入很大,还有很多物理背景的院系也对这个学科有兴趣</b>。值得一提的是,引力波探测方兴未艾,里面也有很多讲究的,除了地面和空间的引力波激光干涉测量,脉冲星时序阵列 (PTA) 和射电天文学有非常紧密的结合;而原初引力波探测则是观测宇宙学的『圣杯』之一。</li><li>[d] <b>实验室天体物理 Laboratory Astrophysics</b>:这个是时常被忽略,但其实很重要的一个子学科,覆盖其实也很广,基本上任何试图在实验室中还原出天体物理环境,研究物理过程的都可以叫实验室天体物理,比如试图模拟天体中的等离子体状态,模拟尘埃在星际介质中的形成和瓦解,甚至模拟致密天体中才有的独特物态等等,和物理学交叉极为紧密。<b>目前国内从事相关教学研究的单位不算多,我只知道北京师范大学和紫金山天文台。从事这个学科的研究,也需要相对于一般天文系教学更为侧重实验物理研究的课程</b>。</li></ol><li><b>天体测量学 Astrometry</b>: 或者你也可以把他叫做『古典天文学』,是测量天体位置和运动的学科。天体测量学在历法,授时,航天等领域都有重要的现实应用。在天体物理领域上也依然起到极其基础的作用。欧空局<i>Gaia</i>天体测量卫星带来的革命就可以反映这一点。目前,无论国内国外,<b>专门提供天体测量教育的院系都不是很大,但课程设置完整的一般都会提供球面天文学课程,提供天体测量学习的敲门砖</b>。</li><li><b>天体力学 Celetial Mechanics</b>: 这是研究引力作用下天体运动规律的学科,祖师爷是牛顿,是『经典天文学』的核心部分。现代背景下,天体力学在理论方面和数学有很强的结合,很多理论天体力学问题都是艰深的数学问题 (e.g. 太阳系的长期稳定性?)。在现实应用上,天体力学涉及到不同精度下,对不同复杂程度系统的轨道计算。在航天领域有非常强的应用背景。比如南京大学天文学与空间科学学院的天体力学组就为我国载人航天,嫦娥登月等。<b>也正因为此,国内专门开设完整课程,提供到研究生层次的天体力学教育的院系并不多,但很多和航天相关的专业也会提供一定的应用课程</b> (e.g. 卫星轨道计算)。值得一提的是,天体力学在行星科学和天体物理研究中依然扮演着很重要的作用,比如最近和热门的『第九行星』(Planet 9),就是通过天体力学模拟太阳系得出的预测。</li><li><b>太阳物理 Solar Physics and Space Science</b>: 太阳物理承载了天体物理的起源,我们对天体物理辐射机制以及恒星大气模型,结构模型的认识都是从太阳开始的。但是随着研究的细化,目前太阳物理研究已经可以独立成一个子学科了,至少在NASA科研资金分配上,天体物理和太阳物理是分开的。在科学上,太阳物理研究重点是太阳大气中磁场约束下的等离子体的各种活动,所以<b>在学习上非常强调流体力学,磁流体力学相关的理论和计算课程</b>;在应用上,太阳物理和日常生活关系紧密,尤其是在航天时代,对空间等离子体,空间『天气』的研究也是以太阳物理为基础的。<b>并不是所有的天文系都提供太阳物理教育,而且很多国内外大学的太阳物理研究是在空间科学名下的</b>。</li><li><b>行星科学 Planetary Science</b>: 粗略讲,是研究太阳系内其他行星,卫星,小天体的学科。严格来说,行星科学早就不是天文学的『子学科』了,从探测手段到研究方法上,行星科学通过与空间探测结合,和地质,大气,土壤,水文,甚至生物等学科的交叉,已经发展成一个独立的大领域了。NASA的科研资金分给行星科学的永远都比天体物理的多。。。这里专门提到,是因为在研究方法上和天文观测的交叉很大。比如太阳系小天体以及太阳系外围天体的发现都是来自于天文巡天观测,很多行星的大气活动也需要地面和空间的红外观测,等等。<b>在学习上,行星科学需要的背景知识更为宽广,很多内容是一般天文系所不能提供的。国内情况我了解不多,但是在北美,已经有不少学校独立建设行星科学院系了。</b></li><li><b>系外行星科学和天体生物学 Exoplanet and Astrobiology: </b>把这两个学科单独列出来不仅是因为他们的影响力在日益提高,大有希望和太阳与行星物理一样,从天体物理中独立出来自立门户,也是因为这两个都是和其他学科交叉度很高的新兴学科。系外行星科学随着大量系外行星系统的发现已经成为天文学内最热门的子领域之一。虽然目前从事系外行星研究主要还是涉及通过不同天文观测手段发现并描绘系外行星系统,但随着观测技术的进步,研究系外行星大气成分等目标成为现实,这个领域也将和行星科学,地球科学有进一步的交叉。目前,我所在的加州大学圣克鲁兹分校就在筹划一个新的系外行星和天体生物学研究机构。</li></ol><h2>国内天文专业设置</h2><p>关于国内天文专业的基本设置,刘博洋的这个答案已经非常全面了:</p><a href="https://www.zhihu.com/question/315167785/answer/618785765" data-draft-node="block" data-draft-type="link-card" class="internal">喜欢天文但是国内大学很少有天文系该怎么办?</a><p>主要的变化是清华大学已经正式成立了天文系。这里只是想尽量客观的说几点:</p><ol><li><b>国内的天文学专业这几年发展很快,但规模远远不够</b>。除了南大,北大,中科大,北师大,以及中科院大学外,其他天文专业的历史都很短。在几大基础学科当中,天文学科在国内的发展状况最滞后。简单来说,在美国基本你知道的大学都会有天文系或者天文学科,而且很多你可能完全不了解的排名100开外的大学里都有水平不错,或者至少很有特色的天文学科。国家如果再基础学科领域保持投入的话,国内天文界会进一步的壮大,也应该会有更多的天文系和天文专业。</li><li><b>国内已有的天文系中,领域覆盖的深度和广度都还远远不够</b>。考虑到大部分天文系年轻的历史,这也是不奇怪的,但是在目前有天文学专业的学校里,能够提供完整的基础天体物理课程的非常有限;能够在教学和科研上覆盖两个以上上面提到子领域的院校也非常有限。实话实说,很多地方院校设立天文专业是有些草率的,很可能是依托于某个项目或者几个教授开始的。像清华大学这样靠天体物理中心运作多年,对主要发展方向有了认识,已经有了一定的规模和声誉后转为天文系才是比较靠谱的做法。</li><li><b>国内天文专业里的新军里,也有特点鲜明,主攻方向上实力强劲的新兴力量</b>。厦门大学目前在高能天体物理,尤其是X-ray观测研究上很有实力;而按照我日本同行的说法『亚洲』最好的宇宙学专业,过几年很可能属于上海交通大学。国内各个领域发展都挺快的,很多学校也都值得关注。</li><li><b>在现在国内环境下,谈天文系排名没有太大意义</b>。<b>一方面,前面说了,整体规模太小,资历太浅。</b>10个人的公司弄5个经理有啥意思?<b>另一方面,学校排名和专业排名相关性太好,而学校排名大家心里都清楚。</b>在美国情况是很不一样的,比如我所在的加州大学圣克鲁兹分校,学校说二流算抬举他了,却有一个北美数一数二的天文系;亚利桑那大学综合排名也不高,但天文系超强;因为这样的例子存在,在选择学校和选择专业之间,往往需要仔细考虑。而国内目前还没有这样的情况,基本上是学校综合实力越强,越有钱,天文专业发展也会越好。<b>更重要的是,在国家尺度上发展天文学科,不是选秀才,而更像是培养一支后备军,需要越来越多的院校的参与,需要更多的经过基础天文教育和训练的各种类型的人才</b>。地方院校的广泛参与,意义会变得越来越大。</li></ol><h2>就业前景</h2><p><b>一个坏消息是,如果你想成为『天文学家』,或者说成为职业从事天文研究的教授或者研究员,那么求职路上挑战很大;一个好消息是,接受过完整的天文教育后,你依然有机会从事其他各种职业。</b></p><p>在职业科研方向上,随着国内天文学学科的持续发展,一个利好消息是可能会有更多的天文教职和科研职位出现。这和北美大学天文职位早就饱和的普遍情况形成鲜明对比。当然,不同院校的待遇和科研条件差别很大。即便在国内,能够进入顶尖院校和科研单位的机会依然是需要付出相当的努力争取来的。</p><p>另外,国内天文专业还有一点不同,像南京大学,紫金山天文台,国家天文台都能培养在航天领域大有用武之地的专业人才。这些天文系的毕业生中进入航天和相关部门工作的比例不是很低。</p><p>在其他职业方向上,天文学专业的毕业生职业选择五花八门,在金融,IT,教育领域的不少。这里的选择更多的是考虑个人兴趣以及社会关系等。但『转行』带来的负面影响,尤其是在和大量相关专业应届生的竞争中,也是需要个人努力来弥补的。在北美,天体物理专业的博士生转行很受需要数据科学家的企业欢迎,能够进入金融领域的也不少。这本质上是一种对PhD专业训练的信任,拿到天体物理PhD意味着你逻辑思考能力,发现和解决问题的能力都不低,即便专业完全不对口也值得考虑。在国内似乎这种信任还不是很好,转行的难度可能也要相应大一些。</p><p>有些人喜欢强调,天体物理学习中XXX训练对XXX职业其实很有帮助,我觉得这些其实都还是有夸大的。作为基本没有现实应用的基础学科,也很难说某项教学或者训练有非常强烈的现实应用。天文学家在科研中使用的技术,一方面是为了解决天文问题专门定制的,一方面也是收到天文学界内部的互相影响,有强烈的趋同性的,并不会考虑某个方法或者编程语言更有用,更流行。<b>整体来说,天文学家的数学和编程水平都远低于真正的专业水平,也有很多落后和不好的习惯。这是过去天体物理研究数据和人员规模小有关的。随着天文学不断发展壮大,合作持续开放和深入,这些状况都在慢慢改善 (比如近些年在软件规范,项目组织上的进步),但作为刚『入行』的学生,应该有清醒的认识,仅仅达到某个天文领域所需要的数学,统计,编程水平,很可能完全不足以保证你在相关领域内找到工作。</b>具体还是要看个人的付出和选择的。</p><p></p>'] <class 'list'> <h2>『天文学专业』是什么?</h2><p>天文学是研究宇宙中各种天体以及宇宙本身的起源和演化的<b>基础自然科学学科</b>。在当前学科细化的背景下,『天文学』其实包含了很多差异比较大的子学科,而且在国内和北美有一定的区别,也和院系的『传统』程度有关。而且现代天文学和许多其他学科都有交汇,衍生出了很多交叉学科。在这里简单的介绍一下。这里用的并不是教育部或者任何官方的分类,只反映个人理解。</p><ol><li><b>天体物理学 Astrophysics</b>:<b>这是现代『天文学』的支柱,通过观测,理论,数值模拟等手段,研究不同类型的天体中的物理过程,来理解其起源和演化</b>。按照细致的领域还可以细分成恒星物理,星际介质物理,银河系,河外星系,等不同的子领域。但这些领域所需要的数学物理基础,以及相关天文课程的学习是比较一致的。这些领域之间也有很强的联系,一个合格的天文系学生应该会学习涉及所有这些领域的课程。<b>几乎所有的天文系都会提供天体物理教育</b>。<b>除了基础的数学物理训练 (应当与物理学本课程程度类似,只是侧重略有不同),天体物理学习在本科阶段还应当涉猎天体物理通识,基本的辐射机制,恒星结构和大气,星际介质物理等基础课程</b>。</li><ol><li><b>[a]: 宇宙学 Cosmology</b>:之所以把宇宙学单独列出来,不仅是因为他在天体物理学里的研究对象最独特 (宇宙本身),也是因为这个学科和理论物理学有着比较深刻的联系,需要的科学训练背景有时也会不同,尤其是<b>对热衷于理论宇宙学研究的人,需要比较深入的相对论和相关专业数学训练,并不是所有的国内外天文系都能提供相关课程</b>。现代观测宇宙学还在蓬勃的发展中,而且和天体物理观测有着极其深入的联系,未来10-20年的大量重要天文项目,核心科学目标中都有宇宙学 (DESI, LSST, WFIRST, SKA, 等等)。</li><li>[b] <b>粒子天体物理 Astroparticle Physics</b>: 这是多信使天文时代的产物。既可以通过宇宙提供的天然粒子源来研究粒子物理,也可以通过粒子物理观测来研究相应的天体物理过程。目前,高能宇宙线,中微子,以及暗物质粒子候选的直接探测都是这个交叉学科内的重要方向。<b>这个学科和天体物理比也需要更浓厚的物理背景,而和粒子物理相关的理论与实验课程在天文系中并不多见</b>。国内的重要地面和空间粒子物理项目往往都是中科院高能物理所主导的。</li><li>[c] <b>引力波天体物理</b> <b>Gravitational Wave</b> : 也许把他单独列出来还有点早,毕竟LIGO观测到引力波也就是两年前的事情,但引力波确实是独立于电磁辐射和粒子的第三种宇宙『信使』,<b>而过去极少有天文系提供足够深度的引力波相关课程。目前国内似乎中山大学在这个方向上投入很大,还有很多物理背景的院系也对这个学科有兴趣</b>。值得一提的是,引力波探测方兴未艾,里面也有很多讲究的,除了地面和空间的引力波激光干涉测量,脉冲星时序阵列 (PTA) 和射电天文学有非常紧密的结合;而原初引力波探测则是观测宇宙学的『圣杯』之一。</li><li>[d] <b>实验室天体物理 Laboratory Astrophysics</b>:这个是时常被忽略,但其实很重要的一个子学科,覆盖其实也很广,基本上任何试图在实验室中还原出天体物理环境,研究物理过程的都可以叫实验室天体物理,比如试图模拟天体中的等离子体状态,模拟尘埃在星际介质中的形成和瓦解,甚至模拟致密天体中才有的独特物态等等,和物理学交叉极为紧密。<b>目前国内从事相关教学研究的单位不算多,我只知道北京师范大学和紫金山天文台。从事这个学科的研究,也需要相对于一般天文系教学更为侧重实验物理研究的课程</b>。</li></ol><li><b>天体测量学 Astrometry</b>: 或者你也可以把他叫做『古典天文学』,是测量天体位置和运动的学科。天体测量学在历法,授时,航天等领域都有重要的现实应用。在天体物理领域上也依然起到极其基础的作用。欧空局<i>Gaia</i>天体测量卫星带来的革命就可以反映这一点。目前,无论国内国外,<b>专门提供天体测量教育的院系都不是很大,但课程设置完整的一般都会提供球面天文学课程,提供天体测量学习的敲门砖</b>。</li><li><b>天体力学 Celetial Mechanics</b>: 这是研究引力作用下天体运动规律的学科,祖师爷是牛顿,是『经典天文学』的核心部分。现代背景下,天体力学在理论方面和数学有很强的结合,很多理论天体力学问题都是艰深的数学问题 (e.g. 太阳系的长期稳定性?)。在现实应用上,天体力学涉及到不同精度下,对不同复杂程度系统的轨道计算。在航天领域有非常强的应用背景。比如南京大学天文学与空间科学学院的天体力学组就为我国载人航天,嫦娥登月等。<b>也正因为此,国内专门开设完整课程,提供到研究生层次的天体力学教育的院系并不多,但很多和航天相关的专业也会提供一定的应用课程</b> (e.g. 卫星轨道计算)。值得一提的是,天体力学在行星科学和天体物理研究中依然扮演着很重要的作用,比如最近和热门的『第九行星』(Planet 9),就是通过天体力学模拟太阳系得出的预测。</li><li><b>太阳物理 Solar Physics and Space Science</b>: 太阳物理承载了天体物理的起源,我们对天体物理辐射机制以及恒星大气模型,结构模型的认识都是从太阳开始的。但是随着研究的细化,目前太阳物理研究已经可以独立成一个子学科了,至少在NASA科研资金分配上,天体物理和太阳物理是分开的。在科学上,太阳物理研究重点是太阳大气中磁场约束下的等离子体的各种活动,所以<b>在学习上非常强调流体力学,磁流体力学相关的理论和计算课程</b>;在应用上,太阳物理和日常生活关系紧密,尤其是在航天时代,对空间等离子体,空间『天气』的研究也是以太阳物理为基础的。<b>并不是所有的天文系都提供太阳物理教育,而且很多国内外大学的太阳物理研究是在空间科学名下的</b>。</li><li><b>行星科学 Planetary Science</b>: 粗略讲,是研究太阳系内其他行星,卫星,小天体的学科。严格来说,行星科学早就不是天文学的『子学科』了,从探测手段到研究方法上,行星科学通过与空间探测结合,和地质,大气,土壤,水文,甚至生物等学科的交叉,已经发展成一个独立的大领域了。NASA的科研资金分给行星科学的永远都比天体物理的多。。。这里专门提到,是因为在研究方法上和天文观测的交叉很大。比如太阳系小天体以及太阳系外围天体的发现都是来自于天文巡天观测,很多行星的大气活动也需要地面和空间的红外观测,等等。<b>在学习上,行星科学需要的背景知识更为宽广,很多内容是一般天文系所不能提供的。国内情况我了解不多,但是在北美,已经有不少学校独立建设行星科学院系了。</b></li><li><b>系外行星科学和天体生物学 Exoplanet and Astrobiology: </b>把这两个学科单独列出来不仅是因为他们的影响力在日益提高,大有希望和太阳与行星物理一样,从天体物理中独立出来自立门户,也是因为这两个都是和其他学科交叉度很高的新兴学科。系外行星科学随着大量系外行星系统的发现已经成为天文学内最热门的子领域之一。虽然目前从事系外行星研究主要还是涉及通过不同天文观测手段发现并描绘系外行星系统,但随着观测技术的进步,研究系外行星大气成分等目标成为现实,这个领域也将和行星科学,地球科学有进一步的交叉。目前,我所在的加州大学圣克鲁兹分校就在筹划一个新的系外行星和天体生物学研究机构。</li></ol><h2>国内天文专业设置</h2><p>关于国内天文专业的基本设置,刘博洋的这个答案已经非常全面了:</p><a href="https://www.zhihu.com/question/315167785/answer/618785765" data-draft-node="block" data-draft-type="link-card" class="internal">喜欢天文但是国内大学很少有天文系该怎么办?</a><p>主要的变化是清华大学已经正式成立了天文系。这里只是想尽量客观的说几点:</p><ol><li><b>国内的天文学专业这几年发展很快,但规模远远不够</b>。除了南大,北大,中科大,北师大,以及中科院大学外,其他天文专业的历史都很短。在几大基础学科当中,天文学科在国内的发展状况最滞后。简单来说,在美国基本你知道的大学都会有天文系或者天文学科,而且很多你可能完全不了解的排名100开外的大学里都有水平不错,或者至少很有特色的天文学科。国家如果再基础学科领域保持投入的话,国内天文界会进一步的壮大,也应该会有更多的天文系和天文专业。</li><li><b>国内已有的天文系中,领域覆盖的深度和广度都还远远不够</b>。考虑到大部分天文系年轻的历史,这也是不奇怪的,但是在目前有天文学专业的学校里,能够提供完整的基础天体物理课程的非常有限;能够在教学和科研上覆盖两个以上上面提到子领域的院校也非常有限。实话实说,很多地方院校设立天文专业是有些草率的,很可能是依托于某个项目或者几个教授开始的。像清华大学这样靠天体物理中心运作多年,对主要发展方向有了认识,已经有了一定的规模和声誉后转为天文系才是比较靠谱的做法。</li><li><b>国内天文专业里的新军里,也有特点鲜明,主攻方向上实力强劲的新兴力量</b>。厦门大学目前在高能天体物理,尤其是X-ray观测研究上很有实力;而按照我日本同行的说法『亚洲』最好的宇宙学专业,过几年很可能属于上海交通大学。国内各个领域发展都挺快的,很多学校也都值得关注。</li><li><b>在现在国内环境下,谈天文系排名没有太大意义</b>。<b>一方面,前面说了,整体规模太小,资历太浅。</b>10个人的公司弄5个经理有啥意思?<b>另一方面,学校排名和专业排名相关性太好,而学校排名大家心里都清楚。</b>在美国情况是很不一样的,比如我所在的加州大学圣克鲁兹分校,学校说二流算抬举他了,却有一个北美数一数二的天文系;亚利桑那大学综合排名也不高,但天文系超强;因为这样的例子存在,在选择学校和选择专业之间,往往需要仔细考虑。而国内目前还没有这样的情况,基本上是学校综合实力越强,越有钱,天文专业发展也会越好。<b>更重要的是,在国家尺度上发展天文学科,不是选秀才,而更像是培养一支后备军,需要越来越多的院校的参与,需要更多的经过基础天文教育和训练的各种类型的人才</b>。地方院校的广泛参与,意义会变得越来越大。</li></ol><h2>就业前景</h2><p><b>一个坏消息是,如果你想成为『天文学家』,或者说成为职业从事天文研究的教授或者研究员,那么求职路上挑战很大;一个好消息是,接受过完整的天文教育后,你依然有机会从事其他各种职业。</b></p><p>在职业科研方向上,随着国内天文学学科的持续发展,一个利好消息是可能会有更多的天文教职和科研职位出现。这和北美大学天文职位早就饱和的普遍情况形成鲜明对比。当然,不同院校的待遇和科研条件差别很大。即便在国内,能够进入顶尖院校和科研单位的机会依然是需要付出相当的努力争取来的。</p><p>另外,国内天文专业还有一点不同,像南京大学,紫金山天文台,国家天文台都能培养在航天领域大有用武之地的专业人才。这些天文系的毕业生中进入航天和相关部门工作的比例不是很低。</p><p>在其他职业方向上,天文学专业的毕业生职业选择五花八门,在金融,IT,教育领域的不少。这里的选择更多的是考虑个人兴趣以及社会关系等。但『转行』带来的负面影响,尤其是在和大量相关专业应届生的竞争中,也是需要个人努力来弥补的。在北美,天体物理专业的博士生转行很受需要数据科学家的企业欢迎,能够进入金融领域的也不少。这本质上是一种对PhD专业训练的信任,拿到天体物理PhD意味着你逻辑思考能力,发现和解决问题的能力都不低,即便专业完全不对口也值得考虑。在国内似乎这种信任还不是很好,转行的难度可能也要相应大一些。</p><p>有些人喜欢强调,天体物理学习中XXX训练对XXX职业其实很有帮助,我觉得这些其实都还是有夸大的。作为基本没有现实应用的基础学科,也很难说某项教学或者训练有非常强烈的现实应用。天文学家在科研中使用的技术,一方面是为了解决天文问题专门定制的,一方面也是收到天文学界内部的互相影响,有强烈的趋同性的,并不会考虑某个方法或者编程语言更有用,更流行。<b>整体来说,天文学家的数学和编程水平都远低于真正的专业水平,也有很多落后和不好的习惯。这是过去天体物理研究数据和人员规模小有关的。随着天文学不断发展壮大,合作持续开放和深入,这些状况都在慢慢改善 (比如近些年在软件规范,项目组织上的进步),但作为刚『入行』的学生,应该有清醒的认识,仅仅达到某个天文领域所需要的数学,统计,编程水平,很可能完全不足以保证你在相关领域内找到工作。</b>具体还是要看个人的付出和选择的。</p><p></p> <class 'lxml.etree._ElementUnicodeResult'> ==================================================
可以看出print(i.xpath('text()'))得到的是一个列表;print(i.xpath('string(.)') + '\n')得到的是一个<class 'lxml.etree._ElementUnicodeResult'>对象。
但是都含有杂乱字符。
想法:
可以这样想,因为print(i.xpath('string(.)') + '\n')结果中含有标签,那么可否利用etree将其转换为html,然后再利用xpath库进行解析呢?
import requests from lxml import etree from pyquery import PyQuery as pq url='https://www.zhihu.com/explore' headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'} response=requests.get(url,headers=headers) element=etree.HTML(response.text) print(element) questions=element.xpath('//div[@class="zm-item-rich-text expandable js-collapse-body"]//textarea[@class="content"]') for i in questions: print(i.xpath('string(.)') + '\n') s1=etree.HTML(i.xpath('string(.)')) print(s1) print(s1.xpath('//p/text()'))#注意这里p标签前面是两道斜杠 print('\n' + '=' * 50 + '\n')
运行结果如下
<Element html at 0x1b889625088> <h2>『天文学专业』是什么?</h2><p>天文学是研究宇宙中各种天体以及宇宙本身的起源和演化的<b>基础自然科学学科</b>。在当前学科细化的背景下,『天文学』其实包含了很多差异比较大的子学科,而且在国内和北美有一定的区别,也和院系的『传统』程度有关。而且现代天文学和许多其他学科都有交汇,衍生出了很多交叉学科。在这里简单的介绍一下。这里用的并不是教育部或者任何官方的分类,只反映个人理解。</p><ol><li><b>天体物理学 Astrophysics</b>:<b>这是现代『天文学』的支柱,通过观测,理论,数值模拟等手段,研究不同类型的天体中的物理过程,来理解其起源和演化</b>。按照细致的领域还可以细分成恒星物理,星际介质物理,银河系,河外星系,等不同的子领域。但这些领域所需要的数学物理基础,以及相关天文课程的学习是比较一致的。这些领域之间也有很强的联系,一个合格的天文系学生应该会学习涉及所有这些领域的课程。<b>几乎所有的天文系都会提供天体物理教育</b>。<b>除了基础的数学物理训练 (应当与物理学本课程程度类似,只是侧重略有不同),天体物理学习在本科阶段还应当涉猎天体物理通识,基本的辐射机制,恒星结构和大气,星际介质物理等基础课程</b>。</li><ol><li><b>[a]: 宇宙学 Cosmology</b>:之所以把宇宙学单独列出来,不仅是因为他在天体物理学里的研究对象最独特 (宇宙本身),也是因为这个学科和理论物理学有着比较深刻的联系,需要的科学训练背景有时也会不同,尤其是<b>对热衷于理论宇宙学研究的人,需要比较深入的相对论和相关专业数学训练,并不是所有的国内外天文系都能提供相关课程</b>。现代观测宇宙学还在蓬勃的发展中,而且和天体物理观测有着极其深入的联系,未来10-20年的大量重要天文项目,核心科学目标中都有宇宙学 (DESI, LSST, WFIRST, SKA, 等等)。</li><li>[b] <b>粒子天体物理 Astroparticle Physics</b>: 这是多信使天文时代的产物。既可以通过宇宙提供的天然粒子源来研究粒子物理,也可以通过粒子物理观测来研究相应的天体物理过程。目前,高能宇宙线,中微子,以及暗物质粒子候选的直接探测都是这个交叉学科内的重要方向。<b>这个学科和天体物理比也需要更浓厚的物理背景,而和粒子物理相关的理论与实验课程在天文系中并不多见</b>。国内的重要地面和空间粒子物理项目往往都是中科院高能物理所主导的。</li><li>[c] <b>引力波天体物理</b> <b>Gravitational Wave</b> : 也许把他单独列出来还有点早,毕竟LIGO观测到引力波也就是两年前的事情,但引力波确实是独立于电磁辐射和粒子的第三种宇宙『信使』,<b>而过去极少有天文系提供足够深度的引力波相关课程。目前国内似乎中山大学在这个方向上投入很大,还有很多物理背景的院系也对这个学科有兴趣</b>。值得一提的是,引力波探测方兴未艾,里面也有很多讲究的,除了地面和空间的引力波激光干涉测量,脉冲星时序阵列 (PTA) 和射电天文学有非常紧密的结合;而原初引力波探测则是观测宇宙学的『圣杯』之一。</li><li>[d] <b>实验室天体物理 Laboratory Astrophysics</b>:这个是时常被忽略,但其实很重要的一个子学科,覆盖其实也很广,基本上任何试图在实验室中还原出天体物理环境,研究物理过程的都可以叫实验室天体物理,比如试图模拟天体中的等离子体状态,模拟尘埃在星际介质中的形成和瓦解,甚至模拟致密天体中才有的独特物态等等,和物理学交叉极为紧密。<b>目前国内从事相关教学研究的单位不算多,我只知道北京师范大学和紫金山天文台。从事这个学科的研究,也需要相对于一般天文系教学更为侧重实验物理研究的课程</b>。</li></ol><li><b>天体测量学 Astrometry</b>: 或者你也可以把他叫做『古典天文学』,是测量天体位置和运动的学科。天体测量学在历法,授时,航天等领域都有重要的现实应用。在天体物理领域上也依然起到极其基础的作用。欧空局<i>Gaia</i>天体测量卫星带来的革命就可以反映这一点。目前,无论国内国外,<b>专门提供天体测量教育的院系都不是很大,但课程设置完整的一般都会提供球面天文学课程,提供天体测量学习的敲门砖</b>。</li><li><b>天体力学 Celetial Mechanics</b>: 这是研究引力作用下天体运动规律的学科,祖师爷是牛顿,是『经典天文学』的核心部分。现代背景下,天体力学在理论方面和数学有很强的结合,很多理论天体力学问题都是艰深的数学问题 (e.g. 太阳系的长期稳定性?)。在现实应用上,天体力学涉及到不同精度下,对不同复杂程度系统的轨道计算。在航天领域有非常强的应用背景。比如南京大学天文学与空间科学学院的天体力学组就为我国载人航天,嫦娥登月等。<b>也正因为此,国内专门开设完整课程,提供到研究生层次的天体力学教育的院系并不多,但很多和航天相关的专业也会提供一定的应用课程</b> (e.g. 卫星轨道计算)。值得一提的是,天体力学在行星科学和天体物理研究中依然扮演着很重要的作用,比如最近和热门的『第九行星』(Planet 9),就是通过天体力学模拟太阳系得出的预测。</li><li><b>太阳物理 Solar Physics and Space Science</b>: 太阳物理承载了天体物理的起源,我们对天体物理辐射机制以及恒星大气模型,结构模型的认识都是从太阳开始的。但是随着研究的细化,目前太阳物理研究已经可以独立成一个子学科了,至少在NASA科研资金分配上,天体物理和太阳物理是分开的。在科学上,太阳物理研究重点是太阳大气中磁场约束下的等离子体的各种活动,所以<b>在学习上非常强调流体力学,磁流体力学相关的理论和计算课程</b>;在应用上,太阳物理和日常生活关系紧密,尤其是在航天时代,对空间等离子体,空间『天气』的研究也是以太阳物理为基础的。<b>并不是所有的天文系都提供太阳物理教育,而且很多国内外大学的太阳物理研究是在空间科学名下的</b>。</li><li><b>行星科学 Planetary Science</b>: 粗略讲,是研究太阳系内其他行星,卫星,小天体的学科。严格来说,行星科学早就不是天文学的『子学科』了,从探测手段到研究方法上,行星科学通过与空间探测结合,和地质,大气,土壤,水文,甚至生物等学科的交叉,已经发展成一个独立的大领域了。NASA的科研资金分给行星科学的永远都比天体物理的多。。。这里专门提到,是因为在研究方法上和天文观测的交叉很大。比如太阳系小天体以及太阳系外围天体的发现都是来自于天文巡天观测,很多行星的大气活动也需要地面和空间的红外观测,等等。<b>在学习上,行星科学需要的背景知识更为宽广,很多内容是一般天文系所不能提供的。国内情况我了解不多,但是在北美,已经有不少学校独立建设行星科学院系了。</b></li><li><b>系外行星科学和天体生物学 Exoplanet and Astrobiology: </b>把这两个学科单独列出来不仅是因为他们的影响力在日益提高,大有希望和太阳与行星物理一样,从天体物理中独立出来自立门户,也是因为这两个都是和其他学科交叉度很高的新兴学科。系外行星科学随着大量系外行星系统的发现已经成为天文学内最热门的子领域之一。虽然目前从事系外行星研究主要还是涉及通过不同天文观测手段发现并描绘系外行星系统,但随着观测技术的进步,研究系外行星大气成分等目标成为现实,这个领域也将和行星科学,地球科学有进一步的交叉。目前,我所在的加州大学圣克鲁兹分校就在筹划一个新的系外行星和天体生物学研究机构。</li></ol><h2>国内天文专业设置</h2><p>关于国内天文专业的基本设置,刘博洋的这个答案已经非常全面了:</p><a href="https://www.zhihu.com/question/315167785/answer/618785765" data-draft-node="block" data-draft-type="link-card" class="internal">喜欢天文但是国内大学很少有天文系该怎么办?</a><p>主要的变化是清华大学已经正式成立了天文系。这里只是想尽量客观的说几点:</p><ol><li><b>国内的天文学专业这几年发展很快,但规模远远不够</b>。除了南大,北大,中科大,北师大,以及中科院大学外,其他天文专业的历史都很短。在几大基础学科当中,天文学科在国内的发展状况最滞后。简单来说,在美国基本你知道的大学都会有天文系或者天文学科,而且很多你可能完全不了解的排名100开外的大学里都有水平不错,或者至少很有特色的天文学科。国家如果再基础学科领域保持投入的话,国内天文界会进一步的壮大,也应该会有更多的天文系和天文专业。</li><li><b>国内已有的天文系中,领域覆盖的深度和广度都还远远不够</b>。考虑到大部分天文系年轻的历史,这也是不奇怪的,但是在目前有天文学专业的学校里,能够提供完整的基础天体物理课程的非常有限;能够在教学和科研上覆盖两个以上上面提到子领域的院校也非常有限。实话实说,很多地方院校设立天文专业是有些草率的,很可能是依托于某个项目或者几个教授开始的。像清华大学这样靠天体物理中心运作多年,对主要发展方向有了认识,已经有了一定的规模和声誉后转为天文系才是比较靠谱的做法。</li><li><b>国内天文专业里的新军里,也有特点鲜明,主攻方向上实力强劲的新兴力量</b>。厦门大学目前在高能天体物理,尤其是X-ray观测研究上很有实力;而按照我日本同行的说法『亚洲』最好的宇宙学专业,过几年很可能属于上海交通大学。国内各个领域发展都挺快的,很多学校也都值得关注。</li><li><b>在现在国内环境下,谈天文系排名没有太大意义</b>。<b>一方面,前面说了,整体规模太小,资历太浅。</b>10个人的公司弄5个经理有啥意思?<b>另一方面,学校排名和专业排名相关性太好,而学校排名大家心里都清楚。</b>在美国情况是很不一样的,比如我所在的加州大学圣克鲁兹分校,学校说二流算抬举他了,却有一个北美数一数二的天文系;亚利桑那大学综合排名也不高,但天文系超强;因为这样的例子存在,在选择学校和选择专业之间,往往需要仔细考虑。而国内目前还没有这样的情况,基本上是学校综合实力越强,越有钱,天文专业发展也会越好。<b>更重要的是,在国家尺度上发展天文学科,不是选秀才,而更像是培养一支后备军,需要越来越多的院校的参与,需要更多的经过基础天文教育和训练的各种类型的人才</b>。地方院校的广泛参与,意义会变得越来越大。</li></ol><h2>就业前景</h2><p><b>一个坏消息是,如果你想成为『天文学家』,或者说成为职业从事天文研究的教授或者研究员,那么求职路上挑战很大;一个好消息是,接受过完整的天文教育后,你依然有机会从事其他各种职业。</b></p><p>在职业科研方向上,随着国内天文学学科的持续发展,一个利好消息是可能会有更多的天文教职和科研职位出现。这和北美大学天文职位早就饱和的普遍情况形成鲜明对比。当然,不同院校的待遇和科研条件差别很大。即便在国内,能够进入顶尖院校和科研单位的机会依然是需要付出相当的努力争取来的。</p><p>另外,国内天文专业还有一点不同,像南京大学,紫金山天文台,国家天文台都能培养在航天领域大有用武之地的专业人才。这些天文系的毕业生中进入航天和相关部门工作的比例不是很低。</p><p>在其他职业方向上,天文学专业的毕业生职业选择五花八门,在金融,IT,教育领域的不少。这里的选择更多的是考虑个人兴趣以及社会关系等。但『转行』带来的负面影响,尤其是在和大量相关专业应届生的竞争中,也是需要个人努力来弥补的。在北美,天体物理专业的博士生转行很受需要数据科学家的企业欢迎,能够进入金融领域的也不少。这本质上是一种对PhD专业训练的信任,拿到天体物理PhD意味着你逻辑思考能力,发现和解决问题的能力都不低,即便专业完全不对口也值得考虑。在国内似乎这种信任还不是很好,转行的难度可能也要相应大一些。</p><p>有些人喜欢强调,天体物理学习中XXX训练对XXX职业其实很有帮助,我觉得这些其实都还是有夸大的。作为基本没有现实应用的基础学科,也很难说某项教学或者训练有非常强烈的现实应用。天文学家在科研中使用的技术,一方面是为了解决天文问题专门定制的,一方面也是收到天文学界内部的互相影响,有强烈的趋同性的,并不会考虑某个方法或者编程语言更有用,更流行。<b>整体来说,天文学家的数学和编程水平都远低于真正的专业水平,也有很多落后和不好的习惯。这是过去天体物理研究数据和人员规模小有关的。随着天文学不断发展壮大,合作持续开放和深入,这些状况都在慢慢改善 (比如近些年在软件规范,项目组织上的进步),但作为刚『入行』的学生,应该有清醒的认识,仅仅达到某个天文领域所需要的数学,统计,编程水平,很可能完全不足以保证你在相关领域内找到工作。</b>具体还是要看个人的付出和选择的。</p><p></p> <Element html at 0x1b88b8b0b48> ['天文学是研究宇宙中各种天体以及宇宙本身的起源和演化的', '。在当前学科细化的背景下,『天文学』其实包含了很多差异比较大的子学科,而且在国内和北美有一定的区别,也和院系的『传统』程度有关。而且现代天文学和许多其他学科都有交汇,衍生出了很多交叉学科。在这里简单的介绍一下。这里用的并不是教育部或者任何官方的分类,只反映个人理解。', '关于国内天文专业的基本设置,刘博洋的这个答案已经非常全面了:', '主要的变化是清华大学已经正式成立了天文系。这里只是想尽量客观的说几点:', '在职业科研方向上,随着国内天文学学科的持续发展,一个利好消息是可能会有更多的天文教职和科研职位出现。这和北美大学天文职位早就饱和的普遍情况形成鲜明对比。当然,不同院校的待遇和科研条件差别很大。即便在国内,能够进入顶尖院校和科研单位的机会依然是需要付出相当的努力争取来的。', '另外,国内天文专业还有一点不同,像南京大学,紫金山天文台,国家天文台都能培养在航天领域大有用武之地的专业人才。这些天文系的毕业生中进入航天和相关部门工作的比例不是很低。', '在其他职业方向上,天文学专业的毕业生职业选择五花八门,在金融,IT,教育领域的不少。这里的选择更多的是考虑个人兴趣以及社会关系等。但『转行』带来的负面影响,尤其是在和大量相关专业应届生的竞争中,也是需要个人努力来弥补的。在北美,天体物理专业的博士生转行很受需要数据科学家的企业欢迎,能够进入金融领域的也不少。这本质上是一种对PhD专业训练的信任,拿到天体物理PhD意味着你逻辑思考能力,发现和解决问题的能力都不低,即便专业完全不对口也值得考虑。在国内似乎这种信任还不是很好,转行的难度可能也要相应大一些。', '有些人喜欢强调,天体物理学习中XXX训练对XXX职业其实很有帮助,我觉得这些其实都还是有夸大的。作为基本没有现实应用的基础学科,也很难说某项教学或者训练有非常强烈的现实应用。天文学家在科研中使用的技术,一方面是为了解决天文问题专门定制的,一方面也是收到天文学界内部的互相影响,有强烈的趋同性的,并不会考虑某个方法或者编程语言更有用,更流行。', '具体还是要看个人的付出和选择的。'] ==================================================
可以看出似乎得到自己想要的文字,但是和上面用pyquery+xpath方法配合使用得到的结果相比:
没有换行,且内容少了标题,中间还有', '等,所以这种方法虽然没有成功,但是可以作为一种思路。
即:利用etree进行转换后,然后第二次使用xpath进行解析。