初学coreseek的杂乱笔记

手册地址：http://www.coreseek.cn/docs/coreseek_3.2-sphinx_0.9.9.html

开始学，很多地方模糊，记个笔记，边学边改边记录

/*********************************************************

目前觉得数据源是由 sql_query 这一项设置来决定的，
sql_query_info 这一项是设置命令行运行时返回满足要求的记录的字段数据是从数据库中读取的原始数据

/******************************
全自动的即时更新设置两个数据源和两个索引

注意：
配置文件中设置了增量数据源 new 的 sql_query_pre 选项，覆盖了全局设置。必须显示地覆盖这个选项，否则对 new 做索引的时候也会运行继承的那条REPLACE查询，那样会导致 new 源中选出的数据为空。可是简单地将 new 的 sql_query_pre 设置成空也不行，因为在继承来的数据源上第一次运行这个指令的时候，继承来的所有值都会被清空，这样编码设置的部分也会丢失。因此需要再次显式调用编码设置查询。

/******************************
在Coreseek中，启用中文分词后，系统会使用MMSeg内置的码表（被硬编码在MMSeg的程序中），因此，charset_table在启用分词后将失效。

/******************************
后查询(sql_query_post)和索引后查询(sql_query_post_index)的区别在于，当Sphinx获取到全部文档数据后，立即执行后查询，但是构建索引的过程仍然may因为某种原因失败。在另一方面，当索引后查询被执行时，可以理所当然的认为索引已经成功构造完了。因为构造索引可能是个漫长的过程，因此对与数据库的连接在执行后索引操作后被关闭，在执行索引后操作前被再次打开。

sql_query_post_index 可以用在增量索引中更新那个计数的表
sql_query_post_index = REPLACE INTO sph_counter SELECT 1, MAX(id) FROM documents

/******************************
合并索引
1.php程序查询出来的math中的结果已经将重复的数据去除了
2.命令行模式查询出来的数据就是数据源中满足条件的所有数据没有去重
3.合并数据源的时候重复的数据不会再加入合并中

/******************************
当如下条件满足时，SPH_MATCH_FULLSCAN模式自动代替其他指定的模式被激活:
查询串是空的（即长度字符串为零）
docinfo 存储方式为 extern.

在完整扫描模式中，全部已索引的文档都被看作是匹配的。这类匹配仍然会被过滤、排序或分组，但是并不会做任何真正的全文检索。这种模式可以用来统一全文检索和非全文检索的代码，或者***减轻SQL服务器的负担****（有些时候Sphinx扫描的速度要****优于****类似的MySQL查询）。 “在论坛中搜索帖子”这件事可用作完整搜索模式的例子：用SetFilter()指定用户ID但不提供任何查询词，Sphinx会匹配SetFilter()所能匹配的全部文档，也就是这个用户ID对应的全部帖子。默认情况下，其结果的第一排序标准是相关度，其次是Sphinx文档ID，正序（较老的文档在前）。

/******************************
字段限位符如@body[50] hello 此查询不会匹配body字段包含hello 但其出现在第51个位置或更靠后的文档
字段限制符如@title

/usr/local/coreseek/bin/search -c d.conf -i main 愚人节

/*******************************
内部属性的名字必须用特殊符号@开头，用户属性按原样使用就行了。

已知的内置属性：
@id (匹配文档的 ID)
@weight (匹配权值)
@rank (等同 weight)
@relevance (等同 weight)
@random (随机顺序返回结果)
@rank 和 @relevance 只是 @weight 的别名

/*********************************
SPH_SORT_EXPR 模式
与MySQL不同，相等性比较符（即=和<>）中引入了一个小的阈值（默认是1e-6）。如果被比较的两个值的差异在阈值之内，则二者被认为相等。
与比较操作符不同，IF()并不使用阈值！因此在第一个参数中使用比较结果是安全的，但使用算术运算符则可能产生意料之外的结果。

/*********************************
如果searchd 启动的时候带参数 --iostats，那么在列出被搜索的全部索引后还会给出一块数据。
多出来的这块数据是关于搜索中执行的I/O操作的信息，包括执行的I/O操作次数、从索引文件中读取数据的kb数和I/O操作占用的时间（尽管这个时间还包括一个后台处理组件所占用的，但主要是I/O时间）

/**********************************
indexer 的选项
-c
--all
--rotate
--quiet 使indexer不输出除错误（error）外的任何东西
--noprogress 不随时显示进度信息
--buildstops 与 --buildfreqs
--merge <dst-index> <src-index> 用于在物理上将多个索引合并

--merge-dst-range <attr> <min> <max> 在合并索引的时候运行范围过滤
indexer会对将要合并进去的文档做一次过滤，只有通过过滤才能最终出现在目标索引中

/***********************************
searchd 的选项
--help （-h）列出可调用的参数
-c

--stop
值得注意的是，调用 --stop 会确保用 UpdateAttributes() 对索引进行的更动会反应到实际的索引文件中去

--status 用来查询运行中的searchd实例的状态

/****这个选项好像有问题利用--help查看时没有看到这个选项后面要看看！！！！
--pidfile 用来显式指定一个PID文件
searchd在正常模式运行时会使用一个PID（即不是使用--console选项启动的），但有可能存在searchd在控制台（--console）模式运行，而同时正在索引正在进行更新和轮换操作的情况，此时就需要一个PID文件

--console 用来强制searchd以控制台模式启动可以将一些信息直接在控制台显示出来，而不是写入日志文件中

--iostats
--cpustats
--port (-p) 指定searchd监听的端口
--index

/***********************************
search 的选项
通用选项：
-c
--index (-i)

--stdin 使search接受标准输入（STDIN）上传入的查询，而不是命令行上给出的查询。有时你要用脚本通过管道给search传入查询，这正是这个选项的用武之地

设置匹配方式的选项：
--any (-a) 匹配指定的任意一个词 /****但好奇怪在php文件中设置却没有起作用
--phrase (-p)
--boolean (-b) 注意如果在命令行上使用布尔语法，可能需要对某些符号（用反斜线“\”）加以转义，以避免外壳程序（shell）或命令行处理器对这些符号做特殊理解

--ext (-e)
--ext2 (-e2) 推荐用这个

--filter <attr> <v> (-f <attr> <v>) 对结果进行过滤只有指定的属性attr匹配指定的值v时才能通过过滤
也可以在命令行上多次给出--filter以便指定多重过滤，但是如果重复定义针对同一个属性的过滤器，那么第二次指定的过滤条件会覆盖第一次的

用于处理搜索结果的选项：
--limit <count> (-l) 默认值是20个结果（与API相同）
--offset <count> (-o) 用于给搜索结果分页
如：/usr/usr/local/coreseek/bin/search -c mytable.conf -a -l 1 -o 1 wuhaigui turtle

--group <attr> (-g) 搜索结果按照指定的属性attr进行分组,类似SQL中的GROUP BY子句，这会将attr属性值一致的结果结合在一起，返回的结果集中的每条都是一组中最好的那条结果。如果没有特别指定，那“最好”指的是相关度最大的

--groupsort <expr> (-gs) 决定--group分组后分组的顺序注意，这个选项指定的不是各组内部哪条结果是最好的，而是分组本身返回的顺序

--sortby <clause> (-s) 指定结果按照<clause>中指定的顺序排序。这使用户可以控制搜索结果展现时的顺序
例如，--sortby "@weight DESC entrytime DESC" 的意思是将结果首先按权值（相关度）排序，如果有两条或以上结果的相关度相同，则他们的顺序由时间值entrytime决定，时间最近（值最大）的排在前面。通常需要将这些项目放在引号里(--sortby "@weight DESC")或者用逗号隔开(--sortby @weight,DESC)，以避免它们被分开处理。另外，与通常的排序模式相同，如果指定了--group(分组)，这个选项就*****影响分组内部*****的结果如何排序。

--sortexpr expr (-S) 按指定的算术表达式来排序扩展排序模式 ****后面要看看！！！！

--sort=date 搜索结果按日期升序（日期较久远的在前）排列
--rsort=date 降序排列
--sort=ts 搜索结果按时间戳分成组。先返回时间戳在最近一小时内的这组结果，在组内部按相关度排序。其后返回时间戳为最近一天之内的结果，也按相关度排序。再之后是最近一周的，最后是最近一个月的

--noinfo (-q) 令search不在SQL数据库中查询文档信息即直接返回所以没有什么数据了哈

/***********************************
通用API方法：
GetLastError() 以可读形式返回最近的错误描述信息。如果前一次API调用没有错误，返回空字符串。

GetLastWarning() 以可读格式返回最近的警告描述信息。如果前一次API调用没有警告，返回空字符串。

SetServer($host, $port) 设置搜索服务

SetRetries($count, $delay=0) 设置分布式搜索重试的次数和延迟时间（默认情况下，重试是禁止的）

SetConnectTimeout($timeout) 设置连接超时时间，在与服务器连接时，如果超过这个时间没有连上就放弃,当连接失败的而时候，会将合适的错误码返回给应用程序，以便在应用程序级别进行错误处理和通知用户

SetArrayResult($arrayresult) PHP专用控制搜索结果集返回格式（数组格式 OR hash格式）

IsConnectError() 检查上一个错误是API层面的网络错误还是searchd返回的远程错误，如果是上一次连接searchd的尝试在API层面失败了，返回真，否则返回假（错误发生在远程，或者根本没有尝试连接）

/***********************************
通用搜索设置：
SetLimits($offset, $limit, $max_matches=0, $cutoff=0)
offset 偏移量默认是0

limit 返回的数目限制默认是20

max_matches 控制搜索过程中searchd在内存中所保持的匹配项数目
注意，max_matches在两个地方设置。针对单个查询的限制由这个API调用指定。但还有一个针对整个服务器的限制，那是由配置文件中的max_matches设置控制的。为防止滥用内存，服务器不允许单个查询的限制高于服务器的限制。默认的限制是1000。

cutoff 阀值当找到的匹配项达到这个阀值时就停止搜索是为高级性能优化而提供的

/*******************************************************************************************
如果您是想将结果传输给应用程序以便做进一步排序或过滤，那么请注意，在Sphinx端完成效率要高得多
/*******************************************************************************************

SetMaxQueryTime ( $max_query_time )
设置最大搜索时间，以毫秒为单位。参数必须是非负整数。默认值为0，意思是不做限制
注意，如果一个搜索查询了多个本地索引，那这个限制独立地作用于这几个索引

SetOverride ( $attrname, $attrtype, $values )
设置一个临时的（只对单个查询有效）针对不同文档的属性值覆盖。只支持标量属性。$value是一个哈希表，他的键是要覆盖属性的文档ID，之是对应该文档ID的要覆盖的值。

SetSelect ( $clause )
设置select子句，列出具体要取出的属性以及要计算并取出的expressions
与SQL语言的区别是，表达式必须用关键字AS给每个表达式取一个别名，别名必须是有效的标识符（由字母和数字组成）
如:$cl->SetSelect ( "exp_years, salary_gbp*{$gbp_usd_rate} AS salary_usd,IF(age>40,1,0) AS over40" );

/***********************************
全文搜索设置：

SetMatchMode($mode) 设置匹配模式
/*********************************************************************************\
警告：（仅PHP）查询模式常量不能包含在引号中，那给出的是一个字符串而不是一个常量：
$cl->SetMatchMode ( "SPH_MATCH_ANY" ); // INCORRECT! will not work as expected
$cl->SetMatchMode ( SPH_MATCH_ANY ); // correct, works OK
\*********************************************************************************/

SetRankingMode($ranker) 设置评分模式

SetSortMode($mode, $sortby="") 设置排序模式

SetWeights($weights) 不推荐使用, 建议使用 SetFieldWeights()
SetFieldWeights($weights) 设置字段权重按字段名称设置字段的权值

SetIndexWeights($weights)
参数weights是关联数组默认是空数组，即关闭带加权和如：SetIndexWeights(array("A"=>100, "B"=>10))
当在不同的本地索引中都匹配到相同的文档ID时，Sphinx默认选择查询中指定的最后一个索引。这是为了支持部分重叠的分区索引

/***********************************
结果集过滤设置：

SetIDRange($min, $max) 默认是 0 0 即不限制范围

SetFilter($attribute, $values, $exclude=false) 设置整数过滤器
values 是整数数组
exclude 默认是false 即接受匹配的文档 true为拒绝

SetFilterRange($attribute, $min, $max, $exclude=false) 设置整数范围的过滤器

SetFilterFloatRange($attribute, $min, $max, $exclude=false) 设置浮点数范围过滤器

SetGeoAnchor($attrlat, $attrlong, $lat, $long) 为地表距离计算设置锚点，并且允许使用它们

/***********************************
分组设置：

SetGroupBy($attribute, $func, $groupsort="@group desc")
注意，影响最终结果集中匹配项顺序的是$groupsort，排序模式SetSortMode影响每个分组内的顺序。

SetGroupDistinct($attribute)
设置分组中需要计算不同取值数目的属性名。只在分组查询中有效。

/***********************************
搜索数据：

Query($query, $index="*", $comment="")
AddQuery($query, $index="*", $comment="") 增加批量查询

RunQueries() 执行批量查询
在极端情况下，批量查询中的所有单个查询可能都失败。但这仍然不会导致报告一般错误，因为API已经成功地连接到searchd，提交了批量查询并得到返回结果，但每个结果集都只包含特定的错误信息

ResetFilters() 清除当前设置的过滤器

ResetGroupBy() 清除现有的分组设置并关闭分组
单独的分组设置可以用SetGroupBy()和SetGroupDistinct()来改变，但它们不能关闭分组。ResetGroupBy()将之前的分组设置彻底重置并在当前状态下关闭分组模式，因此后续的AddQuery()可以进行无分组的搜索

/***********************************
附加方法：

BuildExcerpts($docs, $index, $words, $opts=array()) 该函数用来产生文档片段（摘要）。连接到searchd，要求它从指定文档中产生片段（摘要），并返回结果

UpdateAttributes($index, $attrs, $values)
立即更新指定文档的指定属性值。成功则返回实际被更新的文档数目（0或更多），失败则返回-1
$index 既可以是一个单独的索引名，也可以是一个索引名的列表，就像Query()的参数。与Query()不同的是不允许通配符，全部待更新的索引必须明确指出。索引名列表可以包含分布式索引。对分布式索引，更新会同步到全部代理上

BuildKeywords($query, $index, $hits) 获取分词结果
根据指定索引的符号化（tokenizer）方式的设置，从查询中抽取关键词，也可以同时返回每个关键词出现次数的统计信息

EscapeString($string) 转义特殊字符保证任何时候都可以正确地转义全部特殊字符返回转义后的字符串
如：$escaped = $cl->EscapeString ( "escaping-sample@query/string" );

Status() 查询服务状态

/***********************************
持久连接：
“持久连接”特性允许利用一个单独的网络连接来运行本来需要多个连接的多个命令
Open()
Close()

/***********************************
数据源：
sql_query_range
sql_range_step

sql_query_killlist 这个查询返回的结果集应该只有一列，每行是一个文档ID 感觉就是像一个黑名单的东东查询时会略过这些记录

sql_attr_unit 声明无符号整数属性
sql_attr_bool 声明布尔属性
sql_attr_bigint 64位整数属性声明
sql_attr_timestamp 声明UNIX时间戳属性
sql_attr_str2ordinal 声明字符串序数属性 ************？？
sql_attr_float 声明浮点型属性
sql_attr_multi 声明多值属性 ************？？

sql_query_post 取后查询
sql_query_post_index 后索引查询此查询中可以使用宏$maxid，它会被扩展为索引过程中实际得到的最大的文档ID

sql_ranged_throttle 分区查询的间隔时间单位是毫秒默认是0（无间隔时间）此选项旨在避免indexer对数据库服务器构成了太大的负担

sql_query_info
仅被命令行搜索所用，用来获取和显示文档信息，目前仅对MySQL有效，且仅用于调试目的。此查询为每个文档ID获取CLI搜索工具要显示的文档信息。它需要包含$id宏，以此来对应到查询的文档的ID。

unpack_zlib 使用zlib（即gnuzip）来解压（unpack，deflate）的列当建立索引的动作发生在数据库所在机器以外的机器时，这个选项会降低数据库的负载，并节约网络带宽***************？？
unpack_mysqlcompress **********************************？？
unpack_mysqlcompress_maxsize ***********？？

/***********************************
索引配置选项：

type 索引类型默认是本地索引分布式为：distributed

source 向本地索引增加文档源可以出现多次，必须选项 ******多次的情况还不太明白要再看看********
同一个索引其文档ID必须在所有源的总体上是唯一的

path 索引文件的路径和文件名（不包括扩展名）。必须选项
以下是不同索引文件所存储的数据种类，供参考：
.spa 存储文档属性（仅在extern docinfo存储模式中使用）；
.spd 存储每个词ID可匹配的文档ID列表；
.sph 存储索引头信息；
.spi 存储词列表（词ID和指向.spd文件的指针）；
.spm 存储MVA数据；
.spp 存储每个词ID的命中（或者说记账，或者词的出现）列表；

docinfo 文档信息的存储模式

mlock
已缓冲数据的内存锁定。可选选项，默认为0（不调用mlock()）。mlock(2)是特权调用，因此可能需要searchd以root账户运行或通过其他办法赋予足够的权限。如果mlock()失败会发出警告，但索引会继续进行。

morphology 词形处理器的列表。可选选项，默认为空（不使用任何词形处理器）
词形处理器可以将待索引的词从各种形态变成基本的规则的形态

min_stemming_len 启用词干化的最小词长。可选选项，默认为1（对任何词都进行词干化）。
词干化方法并不完美，有时会产生用户不想要的结果，所以根据情况设置最小词长，如避免对3个字符长的关键词进行词干化 min_stemming_len=4
注意，词长等于这个选项设置的值的词会被词干化

stopwords 停用词文件列表（空格分隔）。可选选项，默认为空
停用词是不被索引的词。停用词表一般包括最常用的高频词，因为它们对搜索结果没有多大帮助却消耗很多处理资源。
可以指定多个文件名，用空格分隔。所有文件都会被载入

wordforms 词形字典可选项默认为空词形字典中可以找到的词不会经过词干提取器的处理
索引和搜索中的输入词都会利用词典做规则化。因此要使词形字典的更改起作用，需要重新索引并重启searchd

min_word_len 最小索引词长度。可选选项，默认为1（索引任何词）

charset_type 字符集编码类型。可选选项，默认为“sbcs”

charset_table
接受的字符表和大小写转换规则。可选选项，默认值与charset_type 选项的值有关。对于使用Coreseek的中文用户，Coreseek 提供的MMseg分词法内置了可接受的字符表，并且用户不可修改。当启用分词功能时，自动开启。

# 'sbcs' defaults for English and Russian
charset_table = 0..9, A..Z->a..z, _, a..z, \
U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF

# 'utf-8' defaults for English and Russian
charset_table = 0..9, A..Z->a..z, _, a..z, \
U+410..U+42F->U+430..U+44F, U+430..U+44F

ignore_chars 忽略字符表。可选选项，默认为空。
例如，如果“-”只是不在charset_table里，那么“abc-def”会被当作两个关键字“abc”和“def”来索引。相反，如果将“-”加到ignore_char列表中，那么相同的文本会被当作一个单独的关键字“abcdef”索引

min_prefix_len
索引的最小前缀长度，可选选项，默认为0（不索引前缀）
前缀索引会使索引体积急剧增大（因为待索引关键字增多了很多），而且索引和搜索的时间皆会恶化
min_infix_len
索引的最小中缀长度，可选选项，默认为0（不索引中缀）
中缀索引会使索引体积急剧增大（因为待索引关键字增多了很多），而且索引和搜索的时间皆会恶化

prefix_fields 做前缀索引的字段列表。可选选项，默认为空（所有字段均为前缀索引模式）如：prefix_fields = url, domain
infix_fields 做中缀索引的字段列表。可选选项，默认为空（所有字段均为中缀索引模式）

enable_star 允许前缀/中缀索引上的星号语法（或称通配符）。可选选项，默认为0（不使用通配符）
仅影响搜索，因此要使改变生效只须重启 searchd，而不需要重新索引

ngram_len
n-gram索引的n-gram长度。可选选项，默认为0（禁用n-gram索引）已知的值是0和1（其他长度尚未实现）对于使用Coreseek的中文用户，在启用了中文分词的情况下，本节内容可忽略
ngram_chars
n-gram字符列表可选项默认为空与ngram_len选项联用

phrase_boundary 词组边界符列表。可选选项，默认为空
phrase_boundary_step 词组边界上词位置的增量。可选选项，默认为0

html_strip 是否从输入全文数据中去除HTML标记。可选标记，默认为0。已知值包括0（禁用）和1（启用）
html_index_attrs 去除HTML标记时要索引的标记语言属性列表。可选选项，默认为空（不索引标记语言属性）

html_remove_elements
HTML元素列表，不仅这些元素本身会被删除，它们的中间包括的文字内容也会被删除。可选选项，默认为空串（不删除任何元素的内容）

分布式的内容后面再看

preopen 预先打开全部索引文件还是每次查询时再打开索引。可选选项，默认为0（不预先打开）
当提供很多索引服务（几百到几千）时，必须每次查询时打开索引文件以便节约文件描述符
这个指令不影响indexer的任何行为，只对searchd有用

ondisk_dict
指定是将字典文件（.spi）保持在磁盘上还是将它预先缓冲在内存中。可选选项，默认值是0（预先缓冲在内存里）
默认情况下是将整个字典缓冲在内存中。这样做提高性能，但可能带来过大的内存压力，尤其是使用了前缀或中缀的时候。启用ondisk_dict为每次查询的每个关键词带来一次磁盘I/O操作，但是会减少内存使用

inplace_enable 是否启用原地索引倒转可选选项，默认值是0（使用单独的临时文件）
极大地减少了建立索引时的磁盘压力，代价是略慢的索引速度（少使用大约两倍的磁盘空间，速度方面能达到原有性能的90-95%

index_exact_words
是否在索引原关键词的词干化/重映射后的形式的同时也索引原词。可选选项，默认值是0（不索引额外的形式）这个选项将对索引大小和索引时间带来延迟。然而搜索的性能不会被影响

overshort_step 在经过过短的词（比 min_word_len短的词）处后增加位置值。可选选项，允许的值是0或者1，默认是1
stopword_step 在经过停用词处后增加位置值可选选项，允许的值是0或者1，默认是1

/***********************************
indexer 程序配置选项

mem_limit
最大可能的限制是2047M。太低的值会影响索引速度，但256M到1024M对绝大多数数据集（如果不是全部）来说应该足够了。这个值设得太高可能导致SQL服务器连接超时。

max_iops
每秒最大I/O操作次数，用于限制I/O操作。可选选项，默认为0（无限制）
将索引I/O限制可以减轻由索引带来的搜索性能下降

max_iosize
最大允许I/O操作大小以字节为单位，用于I/O节流。可选选项，默认为0（不限制）
值0代表不加限制。超过限制的读写操作会被分成几个小的操作，并被max_iops 计为多次

write_buffer
写缓冲区的大小，单位是字节。可选选项，默认值是1MB
写缓冲区越大则所需的磁盘写入次数越少。缓冲区使用的内存不计入 mem_limit选项的值。注意对于不同的文件，会分配多个缓冲区（目前最多4个），这会引起内存占用增加

/***********************************
searchd 程序配置选项

listen
address 不推荐建议使用listen
port earchd 的TCP端口号不推荐建议使用listen
log 全部searchd运行时事件会被记录在这个日志文件中
query_log 可选项，默认为空（不记录查询日志）。全部搜索查询会被记录在此文件中
read_timeout 默认是5秒
client_timeout 默认是5分钟在使用持久连接时，两次查询之间等待的最长时间（单位是秒）。可选选项
max_children 子进程的最大数量默认为0，不限制可选
pid_file

max_matches 从所有满足条件的匹配项中选出最好的N个存入内存中然后再通过方法选出要显式显示的结果
具体看看手册哈~！！！！

seamless_rotate
防止 searchd 轮换在需要预取大量数据的索引时停止响应。可选选项，默认为1（启用无缝（seamless）轮换）
无缝轮换以轮换过程中更大的峰值内存消耗为代价

preopen_indexes
是否在启动是强制重新打开所有索引文件。可选选项，默认为0（不重新打开）。
对所有提供服务的索引强制打开 preopen 选项，免得对每个索引手工指定了

unlink_old
索引轮换成功之后，是否删除以.old为扩展名的索引拷贝。可选选项，默认为1（删除这些索引拷贝）

attr_flush_period
可以令searchd每隔一段时间就将变化写回磁盘，防止丢失这些变化。这个间隔时间通过attr_flush_period选项设置，单位是秒
默认值是0，即关闭隔一段时间就将变化写回磁盘的特性，但是正常关闭时的写回不被关闭

ondisk_dict_default
对 ondisk_dict 指令的全局的默认值。可选选项，默认值是0（将字典预先缓冲到内存）
如果某个索引的这个选项做了显式设定，那么这个设定覆盖上述实例级的默认设置，这种机制提供了细粒度的控制

max_packet_size 网络通讯时允许的最大的包的大小只用于内部校验，不直接影响内存占用和性能。可选选项，默认值是8M

mva_updates_pool 用于多值属性MVA更新的存储空间的共享池大小**********????

crash_log_path
崩溃日志文件的路径（正式地说叫做前缀）。可选选项，默认值为空（不创建崩溃日志文件）

max_filters 每次查询允许设置的过滤器的最大个数默认值是256 可选选项

max_filter_values 单个过滤器允许的值的最大个数可选选项，默认值是4096

listen_backlog TCP监听积压列表长度。可选选项，默认值是5 非Windows平台上创建的Sphinx使用默认值即可

read_buffer 每个关键字的读缓冲区的大小可选默认是256K
增加每次查询的内存占用，但可能会减少IO时间
read_unhinted 无提示时读操作的大小。可选选项，默认值是32K 这个选项的设置值不能超过选项read_buffer的设置值

/***********************************

charset_dictpath 设置中文分词词典所在的目录
charset_type 设置文档的字符集

MMSEG分词配置选项看手册

posted @ 2014-06-17 16:12 守着四星期阅读(317) 评论(0) 收藏举报

刷新页面返回顶部

守着四星期

初学coreseek的杂乱笔记

公告