项目所需技术及问题

项目二期项目启动，对6-8个子系统进行对接，并进行中后期代码开发、调试及维护。年后工作，对100个左右的指定网站的前端进行手动调试；对1亿个外文网页进行爬取，翻译，语义分析、提取关键信息，清洗，入库。（北京现场对接开发细节，实现对应项目的前端开发及后端开发工作）

目前的问题点：

1. 搜索引擎需要多次爬取同一个页面，因此需要保证时效性和内容一致性，比如对爬取的内容进行hash编码，然后再下次爬取时进行比对，如果数据一致则不对已保存的数据进行更新update。这里我们需要考虑的是这个项目从目前来看是一次爬取即可，因此不需要考虑页面内容时间维度上是否发生更改，但是这也是目前可以看到的，随着项目发展也是存在变数的。

2. 爬取数据时是否使用关键词进行比对。

3. 外文数据需要翻译为中文还是英文，然后在进行分词处理。

4. 具体的HTML解析器使用哪个，这个使用是否和数据的文字语种有关。

5. 翻译器使用哪个软件，分词使用哪个软件。

6. 抓取网页过程中对异常URL如何处理，异常如何处理，记录异常打上log。

7. 即使成功抓取数据但是也存在数据异常的问题，此次如何处理，记录异常打上log。

8. 是否需要使用文件下载器，比如下载页面中的PDF文件，然后对下载下来的PDF文件中的文字进行提取。（该部分功能不确定性较大）

9. 如何模仿待爬取完整的自动检索功能。

10. 考虑到运行环境的硬件限制，可以考虑每次多线程爬取一个网站，然后对所有爬取的页面URL在内存中hash保存。

11. 由于爬取时是指定网站的，因此不需要对页面内容进行主题语义建模和分析。

12. 考虑到网站的反爬机制可能存在，所以对每个页面的爬取设置时间间隔，如一秒或3秒时间间隔。

13. 对于需要登录的网站进行爬取，需要使用session模拟技术，对其时效性或并发性要进行注意，如一个session的有效时间为多久，一个session同时可以并发多少访问（如果限制需要调大访问的时间间歇）。

14. 对外文网站的页面文字翻译使用那个翻译器，Google，Baidu，有道。（Google技术难度较大，Baidu和有道技术门槛低些）

15. 数据清洗：1.片段截取，对起始位置和终止位置的定义；2.文字替换；3.错误数据清空；4.空数据补全；5.一个网站内对于重复的错误文字替换等设置替换字典；

Scopus 数据库具
备的应用程序接口（API）、Medenley、Git Hub 以及 Twitter 上的学者数据作为学者采
集数据源抓取文章、作者等详细学者数据信息

==================================

爬虫

无头浏览器

==================================

数据可视化（主要用于项目展示之用，非core内容，如果时间不允许考虑放弃的部分）

ECharts（JavaScript 网页绘图）

pyecharts（基于ECharts 网页绘图、提供python接口）

==================================

Web前端技术（主要用于项目展示之用，非core内容，如果时间不允许考虑放弃的部分）

Bootstrap框架（HTML/CSS/JavaScript）

jQuery框架

==================================

posted on 2023-01-07 00:28 Angry_Panda 阅读(84) 评论(0) 收藏举报

刷新页面返回顶部

Angry Panda（T-800）

项目所需技术及问题

公告

导航