OCF资源脚本书写方法

Open Cluster Framework (OCF) 资源代理

OCF RA 代理最适合用于 High Availability，特别是在您需要主资源或特殊监视功能时。这些代理通常位于 /usr/lib/ocf/resource.d/heartbeat/。其功能与 LSB 脚本的功能相似。但是，它们始终使用环境变量来执行配置，这使它们可以轻松地接受和处理参数。OCF 规范（由于它与资源代理相关）可在http://www.opencf.org/cgi-bin/viewcvs.cgi/specs/ra/resource-agent-api.txt?rev=HEAD 4 中找到。OCF 规范包含以下严格定义：操作必须返回退出代码。群集会严格遵守这些规范。有关详细信息，请参见 http://wiki.linux-ha.orgOCFResourceAgent。

OCF 返回代码

根据 OCF 规范，有一些关于操作必须返回的退出代码的严格定义。群集会始终

检查返回代码与预期结果是否相符。如果结果与预期值不匹配，则将操作视为

失败，并将启动恢复操作。

在实际应用中，如果要对某一个资源是否正常进行监控，可以根据ocf提供的一个虚设资源代理Dummy进行修改即可。

ocf:Dummy — 虚设资源代理

这是虚设资源代理。它只跟踪是否在运行，不执行其他任何操作。它在运行中的作用是测试并用作 RA 编写程序的模板。

支持的参数：OCF_RESKEY_state=状态文件，即储存资源状态的位置。

"${HA_VARRUN}/Dummy-${OCF_RESOURCE_INSTANCE}.state" , 一般在/usr/var/run/下

Eg: /usr/var/run/Dummy-example-check.state，example-check是ocf资源实例的名字，在heartbeat中进行设置即可。

ResourceManager 可以根据这个资源状态文件，来判断被监控的资源状态，从而做出各种判断。

Ocf:Dummy的位置一般在 /usr/lib/ocf/resource.d/pacemaker/Dummy

OCF格式的脚本的写法

这里只提供一种比较简单的方式。

HealthCPU是以Dummy为模板的监控cpu状态的ocf资源监控脚本，也是pacemaker提供的，位置一般在

/usr/lib/ocf/resource.d/pacemaker/HealthCPU

通过分析这个脚本，我们就可以触类旁通的了解ocf格式的脚本

#!/bin/sh

# HealthCPU OCF RA. Measures CPUs ideling and writes

# #health-cpu status into the CIB

#...

# Inc., 59 Temple Place - Suite 330, Boston MA 02111-1307, USA.

#######################################################################

# Initialization://初始化一些ocf资源通用的一些函数资源等

. ${OCF_ROOT}/resource.d/heartbeat/.ocf-shellfuncs

#######################################################################

//metadata 转储resource agent 的元数据到标准输出，这个输出必须遵循一定的格式，//具体的格式参见：http://www.linux-ha.org/doc/dev-guides/_metadata.html

//所有的resource agent 都必须通过一组特定的XML格式的元数据，来描述自己的目标，//以及所支持的参数等，集群管理应用需要这些元数据来提供on-line help，而且//resource agent的操作说明（man pages）也是根据这个元数据来生成的。

meta_data() {

cat <<END

<?xml version="1.0"?>

<!DOCTYPE resource-agent SYSTEM "ra-api-1.dtd">

<resource-agent name="HealthCPU" version="0.1">//HealthCPU是资源名称

Systhem health agent that measures the CPU ideling and updates the #health-cpu attribute.//监控资源说明

</longdesc>

<shortdesc lang="en">System health CPU usage</shortdesc>

<parameter name="state" unique="1">// unique (可选的值: 0 或者 1) 表明对于一个特定的资源类型，一个特殊的值必须在集群中唯一. 例如, 一个高可用性的浮动IP地址需要声明unique — 因为一个IP地址应该在集群中应该唯一

Location to store the resource state in.

</longdesc>

<shortdesc lang="en">State file</shortdesc>

<content type="string" default="${HA_VARRUN}/health-cpu-{OCF_RESOURCE_INSTANCE}.state" />//这里是监控资源状态文件的地址和名称，可以直接只将health-cpu改为要监控的资源名

</parameter>

//下面的参数是表示判断资源状态的阈值，yellow-limit，red-limit，可以根据资源状态来划分资源运行中出错的等级，还可以再设定其他的资源状态阈值来标识资源的状态，如果资源的状态不是一个数值，可以对资源状态进行评分，然后根据这些阈值来判断状态。当然也可以不设置这些阈值，在监控的时候，当资源正常时直接将状态标记为green，当资源出错时直接标记为yellow 或者red或者failed等。

Lower (!) limit of idle percentage to switch the health attribute to yellow. I.e.

the #health-cpu will go yellow if the %idle of the CPU falls below 50%.

</longdesc>

<shortdesc lang="en">Lower limit for yellow health attribute</shortdesc>

<content type="string" default="50"/>//yellow-limit的类型是string，默认值是50

</parameter>

Lower (!) limit of idle percentage to switch the health attribute to red. I.e.

the #health-cpu will go red if the %idle of the CPU falls below 10%.

</longdesc>

<shortdesc lang="en">Lower limit for red health attribute</shortdesc>

</parameter>

</parameters>

//监控脚本所支持的参数，是资源监控代理所支持的动作参数，必须支持的有start、stop、monitor、meta-data、validate-all，可选的有promote、demote、migrate_to、 migrate_from 、notify。这里给出建议的timeout等的值

<action name="start" timeout="10" /> //starts the resource，timeout单位是秒

<action name="stop" timeout="10" />// shuts down the resource.

<action name="monitor" timeout="10" interval="10" start-delay="0" />//查询资源运行的状态

<action name="meta-data" timeout="5" />// dumps the resource agent metadata.

<action name="validate-all" timeout="10" />//确认资源的配置

</actions>

</resource-agent>

END

}

#######################################################################

dummy_usage() {

cat <<END

usage: $0 {start|stop|monitor|validate-all|meta-data}

Expects to have a fully populated OCF RA-compliant environment set.

END

}

//开启资源监控

dummy_start() {

//这里的cpu资源不需要启动，但是如果是一个应用资源，那么就需要在这里启动这个应用资源，使应用跑起来，然后再监控应用的状态

dummy_monitor

if [ $? = $OCF_SUCCESS ]; then

return $OCF_SUCCESS

touch ${OCF_RESKEY_state}//创建资源状态文件

}

//停止资源监控

dummy_stop() {

dummy_monitor

if [ $? = $OCF_SUCCESS ]; then

rm ${OCF_RESKEY_state}

//这里的cpu资源不需要关闭，但是如果是一个应用资源，那么就需要在这里关闭这个应用资源，使应用停止

return $OCF_SUCCESS

}

//监控资源状态

dummy_monitor() {

# Monitor _MUST!_ differentiate correctly between running

# (SUCCESS), failed (ERROR) or _cleanly_ stopped (NOT RUNNING).

# That is THREE states, not just yes/no.

if [ -f ${OCF_RESKEY_state} ]; then

向下：

IDLE=`top -b -n2 | grep Cpu | tail -1 | awk -F",|\.[0-9]%id" '{ print $4 }'`//得到系统的cpu空闲率

if [ $IDLE -lt ${OCF_RESKEY_red_limit} ] ; then

# echo "System state RED!"

attrd_updater -n "#health-cpu" -U "red" -d "30s"//更新cpu状态，将状态写入cpu资源状态文件

return $OCF_SUCCESS

if [ $IDLE -lt ${OCF_RESKEY_yellow_limit} ] ; then

# echo "System state yellow."

attrd_updater -n "#health-cpu" -U "yellow" -d "30s"//持续30s都是这个情况，则将状态改变

else

# echo "System state green."

attrd_updater -n "#health-cpu" -U "green" -d "30s"

return $OCF_SUCCESS

向上

这一部分是监控资源状态的代码，即如果系统cpu超过预设的阈值，则将状态写入资源状态文件，是监控的主要代码。如果是一个应用的监控，则需要check它是否运行正常，然后把它的状态情况写入资源状态文件。

if false ; then

return $OCF_ERR_GENERIC

return $OCF_NOT_RUNNING//资源监控已经停止了

}

dummy_validate() {

# Is the state directory writable?

state_dir=`dirname "$OCF_RESKEY_state"`

touch "$state_dir/$$"

if [ $? != 0 ]; then

return $OCF_ERR_ARGS

rm "$state_dir/$$"

return $OCF_SUCCESS

}

: ${OCF_RESKEY_CRM_meta_interval=0}

: ${OCF_RESKEY_CRM_meta_globally_unique:="true"}

//下面设置资源状态文件

if [ "x$OCF_RESKEY_state" = "x" ]; then

if [ ${OCF_RESKEY_CRM_meta_globally_unique} = "false" ]; then

state="${HA_VARRUN}/Dummy-${OCF_RESOURCE_INSTANCE}.state"

# Strip off the trailing clone marker

OCF_RESKEY_state=`echo $state | sed s/:[0-9][0-9]*\.state/.state/`

else

OCF_RESKEY_state="${HA_VARRUN}/Dummy-${OCF_RESOURCE_INSTANCE}.state"

//预设了cpu状态阈值

if [ "x${OCF_RESKEY_red_limit}" = "x" ] ; then

OCF_RESKEY_red_limit=10

if [ "x${OCF_RESKEY_yellow_limit}" = "x" ] ; then

OCF_RESKEY_yellow_limit=50

case $__OCF_ACTION in

meta-data) meta_data

exit $OCF_SUCCESS

;;

start) dummy_start;;

stop) dummy_stop;;

monitor) dummy_monitor;;

validate-all) dummy_validate;;

usage|help) dummy_usage

exit $OCF_SUCCESS

;;

*) dummy_usage

exit $OCF_ERR_UNIMPLEMENTED

;;

esac

rc=$?

ocf_log debug "${OCF_RESOURCE_INSTANCE} $__OCF_ACTION : $rc"

exit $rc

根据这个例子，可以看出，我们监控某个程序的时候，可以检测后，将它的状态写入资源状态文件，通过这个文件将资源的状态传给资源管理器，从而得到监控资源的目的。

posted on 2012-12-18 14:45 zhanghaozh 阅读(5879) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 零经验选手，Compose 一天开发一款小游戏！
· 一起来玩mcp_server_sqlite，让AI帮你做增删改查！！

haohao的成长之路

OCF资源脚本书写方法

OCF资源脚本书写方法

Open Cluster Framework (OCF) 资源代理

OCF 返回代码

ocf:Dummy — 虚设资源代理

OCF格式的脚本的写法

导航

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜