05 2021 档案

摘要:该爬虫是将本地一批 query(待翻译的文本),通过 bing 翻译的接口进行翻译,采用的是 asyncio 协程进行并发抓取。 问题:该爬虫因代理问题导致抓取任务失败,之前的做法是将失败的 query 写入另一个文件中,手续手动重新抓取,虽然也能解决但是不够智能也过于繁琐。 需求:实现失败自动重抓 阅读全文
posted @ 2021-05-17 22:23 Hubery_Jun 阅读(162) 评论(0) 推荐(0) 编辑
摘要:现有两张数据表:A、B: # A 表,只有 id 有唯一索引(primary key) id、name、description、age... # B 表,只有 id 有唯一索引(primary key) id、task_id、index_name、status、final_status... 问题: 阅读全文
posted @ 2021-05-17 22:21 Hubery_Jun 阅读(1059) 评论(0) 推荐(0) 编辑
摘要:1. 配置 hadoop 依赖:JDK Hadoop 下载地址 winutils 1、解压 hadoop 到 F:\software\hadoop-2.7.1,配置文件位置:F:\software\hadoop-2.7.1\etc\hadoop 2、core-site.xml(配置默认hdfs的访问 阅读全文
posted @ 2021-05-05 23:05 Hubery_Jun 阅读(1440) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示