项目所需技术及问题

 

 

 

项目二期项目启动,对6-8个子系统进行对接,并进行中后期代码开发、调试及维护。年后工作,对100个左右的指定网站的前端进行手动调试;对1亿个外文网页进行爬取,翻译,语义分析、提取关键信息,清洗,入库。(北京现场对接开发细节,实现对应项目的前端开发及后端开发工作)

 

 

 

目前的问题点:

1. 搜索引擎需要多次爬取同一个页面,因此需要保证时效性和内容一致性,比如对爬取的内容进行hash编码,然后再下次爬取时进行比对,如果数据一致则不对已保存的数据进行更新update。这里我们需要考虑的是这个项目从目前来看是一次爬取即可,因此不需要考虑页面内容时间维度上是否发生更改,但是这也是目前可以看到的,随着项目发展也是存在变数的。

2. 爬取数据时是否使用关键词进行比对。

3. 外文数据需要翻译为中文还是英文,然后在进行分词处理。

4. 具体的HTML解析器使用哪个,这个使用是否和数据的文字语种有关。

5. 翻译器使用哪个软件,分词使用哪个软件。

6. 抓取网页过程中对异常URL如何处理,异常如何处理,记录异常打上log。

7. 即使成功抓取数据但是也存在数据异常的问题,此次如何处理,记录异常打上log。

8. 是否需要使用文件下载器,比如下载页面中的PDF文件,然后对下载下来的PDF文件中的文字进行提取。(该部分功能不确定性较大)

9. 如何模仿待爬取完整的自动检索功能。

10. 考虑到运行环境的硬件限制,可以考虑每次多线程爬取一个网站,然后对所有爬取的页面URL在内存中hash保存。

11. 由于爬取时是指定网站的,因此不需要对页面内容进行主题语义建模和分析。

12. 考虑到网站的反爬机制可能存在,所以对每个页面的爬取设置时间间隔,如一秒或3秒时间间隔。

13. 对于需要登录的网站进行爬取,需要使用session模拟技术,对其时效性或并发性要进行注意,如一个session的有效时间为多久,一个session同时可以并发多少访问(如果限制需要调大访问的时间间歇)。

14. 对外文网站的页面文字翻译使用那个翻译器,Google,Baidu,有道。(Google技术难度较大,Baidu和有道技术门槛低些)

15. 数据清洗:1.片段截取,对起始位置和终止位置的定义;2.文字替换;3.错误数据清空;4.空数据补全;5.一个网站内对于重复的错误文字替换等设置替换字典;

 

 

 

Scopus 数据库具
备的应用程序接口(API)、Medenley、Git Hub 以及 Twitter 上的学者数据作为学者采
集数据源抓取文章、作者等详细学者数据信息

 

 

==================================

 

 

爬虫

无头浏览器

 

 

==================================

 

数据可视化(主要用于项目展示之用,非core内容,如果时间不允许考虑放弃的部分)

ECharts(JavaScript 网页绘图)

pyecharts(基于ECharts 网页绘图、提供python接口)

 

 

==================================

 

Web前端技术(主要用于项目展示之用,非core内容,如果时间不允许考虑放弃的部分)

Bootstrap框架(HTML/CSS/JavaScript)

jQuery框架

 

 

==================================

 

posted on   Angry_Panda  阅读(59)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 使用C#创建一个MCP客户端
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 按钮权限的设计及实现
历史上的今天:
2019-01-07 [python]自问自答:python -m参数? ( python3.7 版本 )
2019-01-07 常用增强学习实验环境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) (转载)
2019-01-07 常用增强学习实验环境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2) (转载)
2017-01-07 遗传算法,实数编码的交叉操作之SBX(模拟二进制交叉)

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示