04 2018 档案

摘要:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 阅读全文
posted @ 2018-04-26 16:35 brady-wang 阅读(336) 评论(0) 推荐(0) 编辑
摘要:def requests_view(response): import webbrowser requests_url = response.url base_url = '' %(requests_url) base_url = base_url.encode('utf-8') content = response.content.replace(b""... 阅读全文
posted @ 2018-04-26 14:15 brady-wang 阅读(696) 评论(0) 推荐(0) 编辑
摘要:python本地时间 阅读全文
posted @ 2018-04-26 11:43 brady-wang 阅读(1126) 评论(0) 推荐(0) 编辑
摘要:SQLite - Python 安装 SQLite3 可使用 sqlite3 模块与 Python 进行集成。sqlite3 模块是由 Gerhard Haring 编写的。它提供了一个与 PEP 249 描述的 DB-API 2.0 规范兼容的 SQL 接口。您不需要单独安装该模块,因为 Pyth 阅读全文
posted @ 2018-04-26 11:01 brady-wang 阅读(404) 评论(0) 推荐(0) 编辑
摘要:本节主要介绍用xpath来描述html的层级关系 主要使用到的知识点如下: 单独的一个点 .,表示当前位置 两个点 ..,表示上一级父标签的位置 单独的一个斜杠 /,表示只检索下面一级 单独的两个斜杠 //,表示检索下面全部位置 下标 [数字]:从1开始,依次计算 准备代码 首先是一个HTML代码块 阅读全文
posted @ 2018-04-25 17:30 brady-wang 阅读(729) 评论(0) 推荐(0) 编辑
摘要:必备知识点 在html中,id是唯一的 在html中,class是可以多处引用的 工具 Python3版本 lxml库【优点是解析快】 HTML代码块【从网络中获取或者自己杜撰一个】 requests【推荐安装,从网页上获取网页代码练手,再好不过了】 Xpath学习 先定义html代码块【这次只从b 阅读全文
posted @ 2018-04-25 17:29 brady-wang 阅读(19461) 评论(0) 推荐(0) 编辑
摘要:工具 Python3版本 lxml库【优点是解析快】 HTML代码块【从网络中获取或者自己杜撰一个】 requests【推荐安装,从网页上获取网页代码练手,再好不过了】 讲解 网页代码都是成对的标签,基础结构如下 <!DOCTYPE html> <html lang="en"> <head> <!- 阅读全文
posted @ 2018-04-25 17:29 brady-wang 阅读(558) 评论(0) 推荐(0) 编辑
摘要:html_str = """ 网页名 div-text span-text a-text p-text Heading Another Heading ... 阅读全文
posted @ 2018-04-25 17:18 brady-wang 阅读(3431) 评论(0) 推荐(0) 编辑
摘要:某些网站的一些数据是通过js加载的 ,所以爬取下来的数据拿不到, 找到评论的地址 .进行请求获取评论数据 阅读全文
posted @ 2018-04-25 16:16 brady-wang 阅读(385) 评论(0) 推荐(0) 编辑
摘要:爬虫 默认使用requests时,发送给服务器的user-agent 是request ,如果想要伪装为浏览器,打开浏览器的网络,复制UA 阅读全文
posted @ 2018-04-25 16:00 brady-wang 阅读(663) 评论(0) 推荐(0) 编辑
摘要:pygal的简单使用 例子来自此书: 《Python编程从入门到实战》【美】Eric Matthes pygal是一个SVG图表库。SVG是一种矢量图格式。全称Scalable Vector Graphics -- 可缩放矢量图形。 用浏览器打开svg,可以方便的与之交互。 以下代码均在Jupyte 阅读全文
posted @ 2018-04-25 14:52 brady-wang 阅读(2510) 评论(0) 推荐(0) 编辑
摘要:Anaconda作为一个工具包集成管理工具,下载python工具包是很方便的,直接敲: 1 但是有时候安装一个工具包(如skimage)的时候,在当前的channels中找不到这个包,会提示: 这个时候,我们可以使用下面的指令来查找我们想要安装的包(以skimage为例) 如上图所示,这里我们找到了 阅读全文
posted @ 2018-04-25 14:47 brady-wang 阅读(11091) 评论(3) 推荐(3) 编辑
摘要:#coding=utf-8import requestsfrom lxml import etreefrom sqlalchemy import create_enginefrom sqlalchemy.ext.declarative import declarative_basefrom sqla 阅读全文
posted @ 2018-04-24 15:59 brady-wang 阅读(704) 评论(0) 推荐(0) 编辑
摘要:mysql汉字乱码的原因 mysql默认的编码是Latin1是I-8859-1的别名,但Latin1是不支持汉字的,所以要将其改为UTF-8或GBK 1.关闭mysql服务器,这个很重要。 2.通过my.ini设置mysql数据库的编码 在mysql数据库的安装根目录下找到my.ini,例:C:\P 阅读全文
posted @ 2018-04-24 15:28 brady-wang 阅读(407) 评论(0) 推荐(0) 编辑
摘要:折腾好半天的数据库连接,由于之前未安装 pip ,而且自己用的python 版本为3.6. 只能用 pymysql 来连接数据库,(如果有和我一样未安装 pip 的朋友请 点这里http://blog.csdn.net/qq_37176126/article/details/72824404 ),下 阅读全文
posted @ 2018-04-24 14:14 brady-wang 阅读(753) 评论(0) 推荐(0) 编辑
摘要:前言 pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同。但目前pymysql支持python3.x而后者不支持3.x版本。 本文测试python版本:2.7.11。mysql版本:5.6.24 一、安装 1 pip3 install pymysql 1 pip3 阅读全文
posted @ 2018-04-24 14:11 brady-wang 阅读(606) 评论(0) 推荐(0) 编辑
摘要:#coding=utf-8from sqlalchemy import create_enginefrom sqlalchemy.ext.declarative import declarative_basefrom sqlalchemy import Column, String, Integer 阅读全文
posted @ 2018-04-24 13:06 brady-wang 阅读(326) 评论(0) 推荐(0) 编辑
摘要:代码如下 阅读全文
posted @ 2018-04-23 22:48 brady-wang 阅读(363) 评论(0) 推荐(0) 编辑
摘要:循环的版本 阅读全文
posted @ 2018-04-23 16:35 brady-wang 阅读(1629) 评论(0) 推荐(0) 编辑
摘要:#coding=utf-8 import re from lxml import etree import requests def requests_view(response): import webbrowser requests_url = response.url base_url = '' %(requests_url) base_url = bas... 阅读全文
posted @ 2018-04-23 15:36 brady-wang 阅读(312) 评论(0) 推荐(0) 编辑
摘要:#coding=utf-8 import re from lxml import etree import requests response = requests.get("http://yeves.cn/") content = response.content.decode() html = etree.HTML(content) res = html.xpath('/html/bo... 阅读全文
posted @ 2018-04-23 15:15 brady-wang 阅读(309) 评论(0) 推荐(0) 编辑
摘要:查看安装的包 conda list 更新 安装包 在终端中键入: conda install package_name 例如,要安装 pandas,在终端中输入: conda install pandas 卸载包 在终端中键入 : conda remove package_names 上面命令中的p 阅读全文
posted @ 2018-04-19 14:43 brady-wang 阅读(413) 评论(0) 推荐(0) 编辑
摘要:这里收集了3种利用php获得网页源代码抓取网页内容的方法,我们可以根据实际需要选用。 1、使用file_get_contents获得网页源代码 这个方法最常用,只需要两行代码即可,非常简单方便。 参考代码: <?php $fh= file_get_contents('http://www.webka 阅读全文
posted @ 2018-04-17 15:01 brady-wang 阅读(26217) 评论(0) 推荐(0) 编辑
摘要:什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 正则并不是python独有的,其他语言也都有正则python中的正则,封装了re模块 python正则的详细讲解 常用 阅读全文
posted @ 2018-04-17 12:01 brady-wang 阅读(326) 评论(0) 推荐(0) 编辑
摘要:什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作 阅读全文
posted @ 2018-04-17 11:19 brady-wang 阅读(507) 评论(0) 推荐(0) 编辑
摘要:Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块 urlopen 关于urllib.request.urlo 阅读全文
posted @ 2018-04-17 10:32 brady-wang 阅读(499) 评论(0) 推荐(0) 编辑
摘要:if(!function_exists('s_curl_post2')){ function s_curl_post2(url,postData) { dataFormat=;foreach(postData as k=>v){ v=@iconv("UTF8","GBK",v); ... 阅读全文
posted @ 2018-04-16 10:03 brady-wang 阅读(284) 评论(0) 推荐(0) 编辑
摘要:Python对文件的操作还算是方便的,只需要包含os模块进来,使用相关函数即可实现目录的创建。 主要涉及到三个函数 1、os.path.exists(path) 判断一个目录是否存在 2、os.makedirs(path) 多层创建目录 3、os.mkdir(path) 创建目录 DEMO 直接上代 阅读全文
posted @ 2018-04-14 14:20 brady-wang 阅读(1634) 评论(0) 推荐(1) 编辑
摘要:urllib模块是python自带的,直接调用就好,用法如下: 相比较urllib模块,requests模块要简单很多,具体用法如下: 显而易见,requests模块要方便很多,建议大家使用requests模块。 阅读全文
posted @ 2018-04-13 09:59 brady-wang 阅读(3411) 评论(0) 推荐(0) 编辑
摘要:1 进入pip安装目录 python -m pip install --upgrade pip pip install Scrapy 2. 创建一个项目 scrapy startproject test 3. 验证是否可用 scrapy shell https://blog.csdn.net/osc 阅读全文
posted @ 2018-04-11 12:26 brady-wang 阅读(306) 评论(0) 推荐(0) 编辑
摘要:前言 本来以为网上已经有了类似博文,不想重复,可是一圈搜下来,都是一些内容不甚明了的文章,或者solr版本太过老,参考价值不高,更有甚者,直接拷贝的别人的内容。一篇博客,各大平台都能看到,也不见转载链接。有人说百度搜索不到内容,用谷歌,把责任推到百度身上,但这是百度的原因吗?在国内网络的资源整体质量 阅读全文
posted @ 2018-04-10 17:26 brady-wang 阅读(1045) 评论(0) 推荐(1) 编辑
摘要:前提 solr已经升级7.1,但是我们公司的solr还是使用的4.4,你们说low不low!!!重要的是,人家花费了大气将solr升级,从技术的角度来说solr7比solr4那是翻天覆地的改变! solr7.1安装 solr7.1官方下载地址 在solr5以前solr的启动都有tomcat作为容器, 阅读全文
posted @ 2018-04-10 16:44 brady-wang 阅读(254) 评论(0) 推荐(0) 编辑
摘要:为什么要给 web 项目配置虚拟目录? 初学 JavaWeb 时,会发现只要我们把 web 项目放到 Tomcat 的 webapps 目录下,再通过 http://localhost:8080/项目名称/某个页面 就可以访问该网站了。可是这样并不符合规范,最好还是把 web 项目文件和 Tomca 阅读全文
posted @ 2018-04-10 16:33 brady-wang 阅读(1257) 评论(0) 推荐(0) 编辑
摘要:有时候为了方便管理,我们常常喜欢在Linux中将之安装为服务,然后就可以使用服务来管理。 但是当我们运行安装服务的命令时候,假设服务名为myservice 常常会出现 service myservice does not support chkconfig 我们一般在脚本开头加入下面两句就好了 #g 阅读全文
posted @ 2018-04-10 16:12 brady-wang 阅读(360) 评论(0) 推荐(0) 编辑
摘要:解决Linux下启动Tomcat遇到Neither the JAVA_HOME ...报错 找不到JAVA_HOME路径,需要做以下变更: 找到启动路径所在的目录: 加入以下信息: 阅读全文
posted @ 2018-04-10 16:09 brady-wang 阅读(879) 评论(0) 推荐(0) 编辑
摘要:安装tomcat,配置好tomcat环境变量以后,访问manager app页面,出现403 Access Denied错误,解决的方法如下: 首先在conf/tomcat-users.xml文件里面,在</tomcat-users>前面添加如下代码: [html] view plain copy 阅读全文
posted @ 2018-04-10 15:37 brady-wang 阅读(707) 评论(0) 推荐(0) 编辑
摘要:403 Access Denied You are not authorized to view this page. If you have already configured the Manager application to allow access and you have used y 阅读全文
posted @ 2018-04-10 15:14 brady-wang 阅读(247) 评论(0) 推荐(0) 编辑
摘要:系统版本:centos6.5版本 java版本:1.7 一、准备工作 [root@localhost ~]# wget http://apache.fayea.com/tomcat/tomcat-7/v7.0.77/bin/apache-tomcat-7.0.77.tar.gz ~ 二、安装Tomc 阅读全文
posted @ 2018-04-10 15:09 brady-wang 阅读(498) 评论(0) 推荐(0) 编辑
摘要:自定义_all字段 在元数据:_all字段中,我们解释了特殊的_all字段会将其它所有字段中的值作为一个大字符串进行索引。尽管将所有字段的值作为一个字段进行索引并不是非常灵活。如果有一个自定义的_all字段用来索引人名,另外一个自定义的_all字段用来索引地址就更好了。 ES通过字段映射中的copy 阅读全文
posted @ 2018-04-10 12:28 brady-wang 阅读(1342) 评论(0) 推荐(0) 编辑
摘要:以字段为中心的查询(Field-centric Queries) 上述提到的三个问题都来源于most_fields是以字段为中心(Field-centric),而不是以词条为中心(Term-centric):它会查询最多匹配的字段(Most matching fields),而我们真正感兴趣的最匹配 阅读全文
posted @ 2018-04-10 12:27 brady-wang 阅读(521) 评论(0) 推荐(0) 编辑
摘要:multi_match查询 multi_match查询提供了一个简便的方法用来对多个字段执行相同的查询。 NOTE 存在几种类型的multi_match查询,其中的3种正好和在"了解你的数据"一节中提到的几种类型相同:best_fields,most_fields以及cross_fields。 默认 阅读全文
posted @ 2018-04-10 12:26 brady-wang 阅读(8729) 评论(0) 推荐(0) 编辑
摘要:多字段搜索(Multifield Search) 本文翻译自官方指南的Multifield Search一章。 查询很少是只拥有一个match查询子句的查询。我们经常需要对一个或者多个字段使用相同或者不同的查询字符串进行搜索,这意味着我们需要将多个查询子句和它们得到的相关度分值以一种有意义的方式进行 阅读全文
posted @ 2018-04-10 12:25 brady-wang 阅读(8154) 评论(0) 推荐(2) 编辑
摘要:最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": "Quick brown rabbits", "body": "Brown rabbits are commonly seen." 阅读全文
posted @ 2018-04-10 12:25 brady-wang 阅读(2212) 评论(0) 推荐(0) 编辑
摘要:host = isset(config[host])?config['host'] : '192.168.33.30'; this>port=isset(config['port']) ? config[port]:3306;this->user = isset(config[user])?config['use... 阅读全文
posted @ 2018-04-10 11:22 brady-wang 阅读(540) 评论(0) 推荐(0) 编辑
摘要:封装一个DB类,用来专门操作数据库,以后凡是对数据库的操作,都由DB类的对象来实现。这样有了自己的DB类,写项目时简单的sql语句就不用每次写了,直接调用就行,很方便! 1.封装一个DB类。一个类文件应该只有一个类,其他的内容全部都没有。类文件的命名规则:类名.class.php 下面是创建DB类的 阅读全文
posted @ 2018-04-10 11:12 brady-wang 阅读(628) 评论(0) 推荐(0) 编辑
摘要:elasticsearch集群搭建,可以把索引进行分片存储,一个索引可以分成若干个片,分别存储到集群里面,而对于集群里面的负载均衡,副本分配,索引动态均衡(根据节点的增加或者减少)都是elasticsearch自己内部完成的,一有情况就会重新进行分配。 下面先是介绍几个关于elasticsearch 阅读全文
posted @ 2018-04-10 09:43 brady-wang 阅读(404) 评论(0) 推荐(0) 编辑
摘要:多机集群中的节点可以分为master nodes和data nodes,在配置文件中使用Zen发现(Zen discovery)机制来管理不同节点。Zen发现是ES自带的默认发现机制,使用多播发现其它节点。只要启动一个新的ES节点并设置和集群相同的名称这个节点就会被加入到集群中。 Elasticse 阅读全文
posted @ 2018-04-10 09:12 brady-wang 阅读(348) 评论(0) 推荐(0) 编辑
摘要:在学习Elasticsearch的过程中,必不可少需要通过一些工具查看es的运行状态以及数据。如果都是通过rest请求,未免太过麻烦,而且也不够人性化。此时,head可以完美的帮助你快速学习和使用Elasticsearch。 基础环境 Elasticsearch集群搭建请参考前一篇文章http:// 阅读全文
posted @ 2018-04-09 17:12 brady-wang 阅读(268) 评论(0) 推荐(0) 编辑
摘要:Elasticsearch6.0及其head插件安装 1.下载并解压elasticsearch 2.修改elasticsearch.yml文件 # 集群的名字 cluster.name: my-application # 节点名字 node.name: node-1 # 数据存储目录(多个路径用逗号 阅读全文
posted @ 2018-04-09 16:31 brady-wang 阅读(231) 评论(0) 推荐(0) 编辑
摘要:下载 zip文件 上传到服务器 https://github.com/medcl/elasticsearch-analysis-ik/releases unzip elasticsearch-analysis-ik-6.2.3.zip 移动到 plugin目录 命名为ik 1.download or 阅读全文
posted @ 2018-04-09 15:30 brady-wang 阅读(498) 评论(0) 推荐(0) 编辑
摘要:1 安装jdk 具体看 http://www.cnblogs.com/php-linux/p/8757783.html 2 下载最新版的 zip https://www.elastic.co/cn/downloads/elasticsearch 3 解压 unzip elasticsearch-6. 阅读全文
posted @ 2018-04-09 11:45 brady-wang 阅读(246) 评论(0) 推荐(0) 编辑
摘要:1 官网下载 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2 上传到linux里面 使用xshell工具 首先安装上传下载工具 yum -y install lrzsz cd 阅读全文
posted @ 2018-04-09 10:20 brady-wang 阅读(325) 评论(0) 推荐(0) 编辑
摘要:db_name = dbname;this->tb_name = tbname;this->host = config_item('db')['host']; if(ENVIRONMENT !== 'development'){ $host=['172.18.30.69:920... 阅读全文
posted @ 2018-04-08 17:29 brady-wang 阅读(1044) 评论(0) 推荐(0) 编辑
摘要:multi_match查询 multi_match查询提供了一个简便的方法用来对多个字段执行相同的查询。 NOTE 存在几种类型的multi_match查询,其中的3种正好和在"了解你的数据"一节中提到的几种类型相同:best_fields,most_fields以及cross_fields。 默认 阅读全文
posted @ 2018-04-08 14:07 brady-wang 阅读(807) 评论(0) 推荐(0) 编辑
摘要:全文搜索(Full Text Search) 现在我们已经讨论了搜索结构化数据的一些简单用例,是时候开始探索全文搜索了 - 如何在全文字段中搜索来找到最相关的文档。 对于全文搜索而言,最重要的两个方面是: 相关度(Relevance) 查询的结果按照它们对查询本身的相关度进行排序的能力,相关度可以通 阅读全文
posted @ 2018-04-08 14:06 brady-wang 阅读(373) 评论(0) 推荐(0) 编辑
摘要:最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": "Quick brown rabbits", "body": "Brown rabbits are commonly seen." 阅读全文
posted @ 2018-04-08 13:10 brady-wang 阅读(519) 评论(0) 推荐(0) 编辑
摘要:访问的是elastic search的tcp端口,需换成http端口。 elastic search默认tcp端口9300,http端口9200 如果浏览器中访问http://localhost:9200/没有返回预期的结果,就需要修改Elasticsearch的配置,使其支持外网访问。 首先,按C 阅读全文
posted @ 2018-04-04 18:25 brady-wang 阅读(4893) 评论(0) 推荐(0) 编辑
摘要:elasticsearch 5.0 安装过程中遇到了一些问题,通过查找资料几乎都解决掉了,这里简单记录一下 ,供以后查阅参考,也希望可以帮助遇到同样问题的你。 问题一:警告提示 [2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to 阅读全文
posted @ 2018-04-04 17:52 brady-wang 阅读(248) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示