05 2021 档案
摘要:该爬虫是将本地一批 query(待翻译的文本),通过 bing 翻译的接口进行翻译,采用的是 asyncio 协程进行并发抓取。 问题:该爬虫因代理问题导致抓取任务失败,之前的做法是将失败的 query 写入另一个文件中,手续手动重新抓取,虽然也能解决但是不够智能也过于繁琐。 需求:实现失败自动重抓
阅读全文
摘要:现有两张数据表:A、B: # A 表,只有 id 有唯一索引(primary key) id、name、description、age... # B 表,只有 id 有唯一索引(primary key) id、task_id、index_name、status、final_status... 问题:
阅读全文
摘要:1. 配置 hadoop 依赖:JDK Hadoop 下载地址 winutils 1、解压 hadoop 到 F:\software\hadoop-2.7.1,配置文件位置:F:\software\hadoop-2.7.1\etc\hadoop 2、core-site.xml(配置默认hdfs的访问
阅读全文