摘要: 编码方式和解码方式必须保持一致 HTTPS=HTTP(超文本传输协议)+SSL(安全套接字层),port:443 爬虫模拟浏览器发送请求,获取响应,一种按照一定的规则,自动的抓取互联网信息的程序 只要是浏览器能做的事情,原则上,爬虫都可以做 聚焦爬虫,url-->发送请求,获取响应-->提取url- 阅读全文
posted @ 2019-11-18 20:54 沐军 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 总结: select左侧尽量避免* where条件比较符左侧避免函数 尽量避免使用in和not in,会进行全表扫描 尽量避免使用or,会进行全表扫描 使用limit限制返回的数据行数 待补充.............................. 阅读全文
posted @ 2019-11-18 15:31 沐军 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 结巴分词:jieba.cut() 决策树 集成学习 无监督学习 tf-idf文本特征提取 tf 词频 idf 逆向文档频率 tf-idf 思想:一篇文章中出现多次,其他文章很少出现 TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 词频(term frequen 阅读全文
posted @ 2019-11-18 15:29 沐军 阅读(122) 评论(0) 推荐(0) 编辑