摘要:
返回查询集合中指定field的统计情况,例如找到city一样的文档数目:加入文档[plain]view plaincopy1Company1NewYork2Company2NewOrleans3Company3NewYork查询:http://localhost:8983/solr/select?q... 阅读全文
摘要:
f 阅读全文
摘要:
solrconfig.xml配置文件主要定义了SOLR的一些处理规则,包括索引数据的存放位置,更新,删除,查询的一些规则配置。可以在tomcat的安装路径下找到这个文件C:\Program Files\Apache Software Foundation\Tomcat 8.0\solr\collec... 阅读全文
摘要:
CDH Packaging and Tarball Informationhttp://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_vd_cdh_package_tarball.htmlCloud... 阅读全文
摘要:
SolrCloud4.9+zookeeper在CentOS上的搭建与安装http://www.open-open.com/lib/view/open1411307048750.html官网教程https://cwiki.apache.org/confluence/display/solr/SolrC... 阅读全文
摘要:
HTML解析器软件HTML文档解析器 HTMLParserHTML Parser 是一个对HTML进行分析的快速实时的解析器,最新的发行版本是1.6,另外2.0的开发版本已经两年没有进展了。示例代码: Parser parser = new Parser ("http://whatever"); N... 阅读全文
摘要:
http://blog.csdn.net/clj198606061111/article/details/21492457http://wiki.apache.org/solr/ExtractingRequestHandlerhttp://wiki.apache.org/solr/ContentSt... 阅读全文
摘要:
http://blog.javachen.com/2014/03/03/solr-query-syntax/查询参数常用:q - 查询字符串,必须的。fl - 指定返回那些字段内容,用逗号或空格分隔多个。start - 返回第一条记录在完整找到结果中的偏移位置,0开始,一般分页用。rows - 指定... 阅读全文
摘要:
solr的schema.xml配置文件在配置Filed的时候,有个属性:MutiValued:true if this field may containmutiple values per documents,这个说明有点模糊,下面结合实际应用,列举两个不同的例子。例子一:一个field有多个值,... 阅读全文
摘要:
1. Linux 脚本编写基础1.1 语法基本介绍1.1.1 开头程序必须以下面的行开始(必须放在文件的第一行):#!/bin/sh 符号#!用来告诉系统它后面的参数是用来执行该文件的程序。在这个例子中我们使用/bin/sh来执行程序。 当编辑好脚本时,如果要执行该脚本,还必须使其可执行。 要... 阅读全文
摘要:
命令很简单,但是网上似乎没资料,只有RHEL6以下的资料。直接贴命令:12345cd ~wget http://swupdate.openvpn.org/as/openvpn-as-2.0.10-CentOS7.x86_64.rpmrpm -Uvh openvpn-as-2.0.10-CentOS7... 阅读全文
摘要:
用最新的CentOS7发现没有视频播放器,于是在http://pkgs.org/上查找,发现了nux dextop仓库上有,于是到他的官网上http://li.nux.ro/repos.html查了下。由于之前已经使用了remi仓库,而此处说nux可能和其他仓库有冲突,于是卸载remi仓库(卸载方法... 阅读全文
摘要:
转载:http://seisman.info/linux-environment-for-seismology-research.html#flash这篇博文记录了我用CentOS 7搭建地震学科研环境的过程,供我个人在未来重装系统时参考。对于其他地震学科研人员,也许有借鉴意义。阅读须知:本文适用于... 阅读全文
摘要:
实时商务智能这一构想早已算不得什么新生事物(早在2006年维基百科中就出现了关于这一概念的页面)。然而尽管人们多年来一直在对此类方案进行探讨,我却发现很多企业实际上尚未就此规划出明确发展思路、甚至没能真正意识到其中蕴含的巨大效益。为什么会这样?一大原因在于目前市场上的实时商务智能与分析工具仍然非常有... 阅读全文
摘要:
1. 如何绕过目标站点的robots.txt限制 多数站点都是只允许百度、google等搜索引擎抓取的,所以会在robots.txt里限制其他爬虫。nutch自然是会遵循robots协议的,但是我们可以通过修改nutch源码来绕过限制。相关代码位于(nutch版本1.5.1,其他版本未测试):org... 阅读全文