摘要: 1.安装pytesseract pip install pytesseract 编辑pytesseract.py文件: 注意务必确保地址正确,保存后关闭。 2.安装Pillow pip install Pillow 3.下载并安装Tesseract-OCR 下载地址:https://digi.bib 阅读全文
posted @ 2021-10-29 22:56 CharyGao 阅读(362) 评论(0) 推荐(0) 编辑
摘要: Scrapy Splash Scrapy Splash 用来爬取动态网页,其效果和scrapy selenium phantomjs一样,都是通过渲染js得到动态网页然后实现网页解析,selenium+phantomjs是用selenium的Webdriver操作浏览器,然后用phantomjs执行 阅读全文
posted @ 2021-10-29 22:49 CharyGao 阅读(975) 评论(0) 推荐(0) 编辑
摘要: 使用tinyproxy进行ip代理 爬虫经常用到ip代理。解决方案无非几种: 1.网络上寻找一些免费代理,优点:免费不限量;缺点:可用性较低,验证费时间费资源。一些有免费代理的网站,西刺代理,站大爷,89免费代理等等,网上可以搜出一大堆。 2.购买代理ip,和找免费的差不多,一般有免费代理ip的网站 阅读全文
posted @ 2021-10-29 22:27 CharyGao 阅读(482) 评论(0) 推荐(0) 编辑
摘要: 文章转载自:http://blog.csdn.net/ithzhang/article/details/20160009 在各个版本的编译器中,我们可以通过配置选项来设置程序使用的C和C++运行时库的类型。如下图(其他版本编译器大同小异): MT选项:链接LIB版的C和C++运行库。在链接时就会在将 阅读全文
posted @ 2021-10-29 15:15 CharyGao 阅读(2437) 评论(0) 推荐(0) 编辑
摘要: 常用削去警告办法: #pragma warning(disable:4035) //no return value #pragma warning(disable:4068) // unknown pragma #pragma warning(disable:4201) //nonstandard 阅读全文
posted @ 2021-10-29 09:57 CharyGao 阅读(969) 评论(0) 推荐(0) 编辑
摘要: 这是我的第一个问题:) 我有一个堆文件,我打开它,如下所示; ifstream in ( filename, ios :: binary | ios :: in ) 然后,我希望在unsigned int hold中保存2字节数据; unsigned int hold; in . read(stat 阅读全文
posted @ 2021-10-29 09:52 CharyGao 阅读(434) 评论(0) 推荐(0) 编辑