上一页 1 2 3 4 5 6 7 8 9 ··· 18 下一页

2022年4月26日

python第三方库AC自动机pyahocorasick的使用

摘要: pyahocorasick是一个快速且内存效率高的库,用于精确或近似多模式字符串搜索,这意味着您可以在某些输入文本中一次找到多个关键字符串出现。 字符串“索引”可以提前构建并保存到磁盘以便稍后重新发送。 pyahocorasick是用 C 语言实现的,并在 Python 3.6 及更高版本上进行了测 阅读全文

posted @ 2022-04-26 20:50 耀扬 阅读(5320) 评论(0) 推荐(0) 编辑

2022年4月25日

长城的作用

摘要: 长城大部建设在漠南和中原的交界,其主要目的并非「抵人」而是「防马」,城墙让骑兵突袭变为不可能的同时,又让各个关口被「长城高速」联系在一起。 阅读全文

posted @ 2022-04-25 10:20 耀扬 阅读(237) 评论(0) 推荐(0) 编辑

2022年4月24日

电脑使用率计算

摘要: 日常工作主要用自己笔记本。不打游戏。 想知道 笔记本电脑在接通电源的情况下是否损耗电池。 查询结果得知,不会损耗电池!! 偶发奇想,在看看自己电脑的使用情况。 想到了一个查看自己日常使用的方法。查询一下电源的状态。 仅限windows电脑 命令行输入:Powercfg/batteryreport 会 阅读全文

posted @ 2022-04-24 18:37 耀扬 阅读(106) 评论(0) 推荐(0) 编辑

2022年4月21日

request请求包含cookies

摘要: 手动抽取cookies cookies='SINAGLOBAL=9232144026738.271.1557816919705; UOR=,,www.baidu.com; ULV=1650523278739:63:2:1:1623689953959.3884.1650523278711:164982 阅读全文

posted @ 2022-04-21 16:04 耀扬 阅读(165) 评论(0) 推荐(0) 编辑

2022年4月17日

scrapy配置user-agent中间件和ip代理中间件

摘要: middlewares.py文件中添加如下的信息: # 使用了fake库 from fake_useragent import UserAgent # 配置headers class RandomUserAgentMidddlware(object): # 随机更换user-agent def __ 阅读全文

posted @ 2022-04-17 23:08 耀扬 阅读(120) 评论(0) 推荐(0) 编辑

2022年4月16日

pip常用命令

摘要: 命令:python 库的setup.py install 1.查看pip (1)直接在cmd窗口中输入pip命令,会显示pip所有的参数使用方法; (2)输入pip提示Did not provide a command,则有两种可能,第一是没有配置环境变量,第二就是其他应用程序也存在pip的环境变量 阅读全文

posted @ 2022-04-16 15:17 耀扬 阅读(970) 评论(0) 推荐(0) 编辑

2022年4月14日

fiddler不能抓包chrome的问题

摘要: 调试chrome接入 安装了fiddler,唯独在chrome上无法使用(edge可以,chrome无痕模式也可以)。 https://blog.csdn.net/beishanyingluo/article/details/103132903 试了网上各种方法。 最后还是通过安装代理插件 Swit 阅读全文

posted @ 2022-04-14 15:40 耀扬 阅读(345) 评论(0) 推荐(0) 编辑

chardet库的问题

摘要: 网页内容编码格式的自动判断一直是困扰爬虫的一个重要问题! python的chardet库,提供了一个解决方案。 import chardet import requests url = "https://www.baidu.com" resp = requests.get(url) # detect 阅读全文

posted @ 2022-04-14 11:36 耀扬 阅读(35) 评论(0) 推荐(0) 编辑

2022年4月1日

各种网站新闻正文抽取利器GeneralNewsExtractor

摘要: GNE在提取今日头条、新浪,腾讯新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。 先安装库 pip install --upgrade gne 调用 url 一个新闻链接 如“https://www.sohu.com/a/534140980_162522?editor=%E9% 阅读全文

posted @ 2022-04-01 11:52 耀扬 阅读(525) 评论(0) 推荐(0) 编辑

爬虫利器faker_useragent构造user-agent池

摘要: 一部分网站反爬,会通过检查请求的请求头里是否有浏览器的user-agent来判断请求是否是爬虫。 当你在请求头里加上user-agent,然后,进行反复的请求后,系统又会判断请求时爬虫,因为单一版本浏览器请求过多,为了达到以假乱真的目的,你需要构建一个user-agent池,然后随机调用,那样相对比 阅读全文

posted @ 2022-04-01 11:31 耀扬 阅读(197) 评论(0) 推荐(0) 编辑

2022年3月23日

转:图文详解ElasticSearch技术,看这一篇就够了

摘要: 傅一平评语: 这篇文章深入浅出的讲解了ES的技术原理,写得挺好,我顺便总结了科普类技术好文章的三个特点: 1、从一个具体案例讲起,点出采用这个技术的必要性,对于读者来讲,特别是对于技术管理者来讲,可以不知道技术细节,但一定要知道为什么要这么做,能解决什么业务问题。 2、代码是最难理解的,将代码用流程 阅读全文

posted @ 2022-03-23 10:17 耀扬 阅读(232) 评论(0) 推荐(0) 编辑

转:就想写个爬虫,我到底要学多少东西啊?

摘要: 本文转载自公众号进击的 Coder,作者是静觅博客博主、畅销书《Python 3网络爬虫开发实战》的作者崔庆才。本文全面介绍了学习爬虫必须要掌握的一些技术知识,希望能帮助正在入门爬虫的你找到学习方向。 当今大数据的时代,网络爬虫已经成为了获取数据的一个重要手段。 但要学习好爬虫并没有那么简单。首先知 阅读全文

posted @ 2022-03-23 09:40 耀扬 阅读(135) 评论(0) 推荐(0) 编辑

2022年2月24日

endnote x9 使用说明

摘要: 1、创建数据库 库自己命名。尽量选一个空间充裕的磁盘。后期会存放大量的内容 2、导入文献 目前亲测 x9 在无法连接外部数据库的情况下只能逐个导入文献。苦啊 总结了一个小方法: 第一步 导出txt文件 然后逐个下载pad文件。 可恶的知网默认下载的是caj格式文件。endnote不支持啊 只能逐个页 阅读全文

posted @ 2022-02-24 15:56 耀扬 阅读(863) 评论(0) 推荐(1) 编辑

2022年1月3日

什么是UTXO

摘要: UTXO英文全称为Unspent Transaction Output,的中文意思叫作“未消费交易输出”。 所谓UTXO模型,简单来说,就是一种特殊的账户记账模型。它跟银行传统的账户模型有一个很大的区别就是, 这种模型只记录交易本身,而不记录交易的结果。 传统的账户余额模型是直接记录结果的: 例如 阅读全文

posted @ 2022-01-03 20:14 耀扬 阅读(1899) 评论(0) 推荐(0) 编辑

2021年10月15日

python交集并集差集对称差集

摘要: a=set([1,2,3,4]) b=set([3,4,5,6]) #并集 a|b {3, 4} #交集 a&b {1, 2, 3, 4, 5, 6} #差集 a-b {1, 2} #对称差集 a^b {1, 2, 5, 6} 阅读全文

posted @ 2021-10-15 16:08 耀扬 阅读(190) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 ··· 18 下一页

导航