博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Torque在Linux集群上的安装配置
阅读量:4198 次
发布时间:2019-05-26

本文共 5452 字,大约阅读时间需要 18 分钟。

2008年7月的时候尝试安装Torque于TCCL的服务器上,失败。

2010年1月12日开始,再次尝试。希望不要再失败。


服务器的基本状况:

一个2T硬盘的前端存储节点,名称为tccl_front;9台8核的计算节点,名称分别为tccl01-tccl09。操作系统为CentOS 5.3 x86_64版本的Linux系统。

NIS服务已经配置好,存储节点的磁盘用NFS挂载在每个计算节点上作为共享磁盘。所有的应用软件都安装在此共享磁盘上。


1.ssh免密码登录.对每个用户都要设置。

2.下载Torque,解压缩,编译。

目前,torque 2.3是稳定版本,2.4是beta版本。为了稳定,我下载的是2.3.9版本。

下载地址:

http://clusterresources.com/downloads/torque

在PBS服务器节点上:

tar xvfz torque-2.3.9.tar.gz

configure需要加参数

./configure --enable-docs --with-scp --enable-syslog 

make

make packages

make install

将torque-package-mom-linux-i686.sh,torque-package-clients-linux-i686.sh安装到计算节点上。

将这两个文件拷贝到计算节点上(或者是共享磁盘上),登录进计算节点,运行:

./torque-package-mom-linux-i686.sh --install

./torque-package-clients-linux-i686.sh --install

可以使用dsh之类的工具来辅助。或者手工写一个脚本来完成这些工作。


3.配置pbs_mom为服务

在torque源码包contrib目录中有一个文件

cp contrib/init.d/pbs_mom /etc/init.d/pbs_mom

chkconfig --add pbs_mom

在所有的机器(pbs服务器和计算节点)上都需要如此设置。

写脚本来完成吧!比如

for i in `seq 1 9`

do 

echo tccl0$i

ssh tccl0$i "some command"

done


4.配置torque

1) 

ldconfig

2) Specify Compute Nodes

编辑文件

/var/spool/torque/server_priv/nodes

内容如下(注意,这里使用的都是机器的简称,与使用免密码登录时的机器名称相同):

tccl01 np=8 smallmem

tccl02 np=8 smallmem

tccl03 np=8 bigmem

tccl04 np=8 bigmem

tccl05 np=8 bigmem

tccl06 np=8 24G_Mem fastcpu

tccl07 np=8 24G_Mem fastcpu

tccl08 np=8 20G_Mem fastcpu

tccl09 np=8 24G_Mem fastcpu


3)Configure TORQUE on the Compute Nodes

按照系统的情况,配置如下:

在计算节点上编辑文件

/var/spool/torque/mom_priv/config

内容如下:

$pbsserver tccl_front

arch x86_64

opsys RHEL

$logevent 255

$ideal_load 4.0

$max_load 8.0

$tmpdir /tmp


4)初始化

torque.setup root

这会生成最基本的一个设置,有一个batch队列。如果需要比较复杂的队列,建议自己写一个配置文件,比如queue.conf文件。下面是一个有short,medium,long 共3个队列的配置文件:

#

# Create queues and set their attributes.

#

#

# Create and define queue batch

#

#create queue batch

#set queue batch queue_type = Execution

#set queue batch resources_default.nodes = 1

#set queue batch resources_default.walltime = 01:00:00

#set queue batch enabled = True

#set queue batch started = True


#Short queue

create queue short

set queue short queue_type = Execution

set queue short resources_default.nodes=1

set queue short Priority = 1000

set queue short max_running=20

set queue short max_queuable=40

set queue short max_user_run=10

set queue short max_user_queuable=20

set queue short resources_min.walltime=00:00:10

set queue short resources_max.walltime=12:00:00

set queue short resources_default.walltime = 12:00:00

set queue short resources_default.neednodes = smallmem

set queue short enabled = True

set queue short started = True


#Medium queue

create queue medium

set queue medium queue_type = Execution

set queue medium resources_default.nodes=1

set queue medium Priority = 100

set queue medium max_running=12

set queue medium max_queuable=20

set queue medium max_user_run=4

set queue medium max_user_queuable=8

set queue medium resources_min.walltime=12:00:10

set queue medium resources_max.walltime=48:00:00

set queue medium resources_default.walltime = 24:00:00

set queue medium enabled = True

set queue medium started = True

set queue medium resources_default.neednodes = fastcpu


#Long queue

create queue long   

set queue long queue_type = Execution

set queue long resources_default.nodes=1

set queue long Priority = 10

set queue long max_running=10

set queue long max_queuable=12

set queue long max_user_run=3

set queue long max_user_queuable=6

set queue long resources_min.walltime=48:00:00

set queue long resources_max.walltime=480:00:00

set queue long resources_default.walltime = 72:00:00

set queue long resources_default.neednodes = bigmem

set queue long enabled = True

set queue long started = True

#

# Set server attributes.

#

set server scheduling = True

set server acl_hosts = tccl_front

set server acl_hosts += tccl_front.tccl_group

set server acl_hosts += "tccl01,tccl02,tccl03,tccl04,tccl05,tccl06,tccl07,tccl08,tccl09"

set server acl_host_enable = true

set server managers = root@tccl_front.tccl_group

set server operators = root@tccl_front.tccl_group

set server default_queue = short

set server log_events = 511

set server mail_from = adm

set server scheduler_iteration = 10

set server node_check_rate = 120

set server tcp_timeout = 6

set server mom_job_sync = True

set server keep_completed = 120

#set server next_job_number = 0

set server query_other_jobs = True



运行

qmgr <queue.conf

即可完成两个队列(long,short)的基本设置。


需要注意的问题:

/etc/hosts设置

# Do not remove the following line, or various programs

# that require network functionality will fail.

127.0.0.1       localhost   localhost

::1    tccl_front6.tccl_group    localhost6

192.168.1.218    tccl_front.tccl_group    tccl_front

192.168.1.3    tccl01.tccl_group    tccl01

192.168.1.2    tccl02.tccl_group    tccl02

192.168.1.4     tccl03.tccl_group       tccl03

192.168.1.5     tccl04.tccl_group       tccl04

192.168.1.6     tccl05.tccl_group       tccl05

192.168.1.7     tccl06.tccl_group       tccl06

192.168.1.8     tccl07.tccl_group       tccl07

192.168.1.9     tccl08.tccl_group       tccl08

192.168.1.10    tccl09.tccl_group       tccl09

包含tccl_front的应该是192.168.*.*的IP,而不能是外网IP或者127.0.0.1的IP,切记!


5.安装mpiexec,这个是为了方便运行nwchem等程序。否则,删除任务以后,实际上没有将mpirun杀死。

http://www.osc.edu/~djohnson/mpiexec/index.php

下载,解压缩以后

./configure --with-pbs=/var/spool/torque --with-prefix=/home_srv/scicons/mpich/mpiexec --with-default-comm=shmem

make

make install

编译mpiexec时,需要注意--with-default-comm选项。这个选项要与mpirun的default-comm一致。比如,我的服务器上用的是shmem,这里就要设置为--with-default-comm=shmem

如果设置错误的话,会发现申请了n个processor,实际计算的时候只使用了一个。


6.将所有的pbs_iff程序setuid=root

chmod 4775 /usr/local/sbin/pbs_iff


参考文献:

http://clusterresources.com/torquedocs21/torquequickstart.shtml

转载地址:http://jiuli.baihongyu.com/

你可能感兴趣的文章
网站单页面优化的6个技巧
查看>>
个人对magento整体的理解
查看>>
在magento中如何调用static block
查看>>
Magento事件一览表
查看>>
magent controller
查看>>
magento--12--24--2010
查看>>
MAGENTO数据转移/换服务器/换域名
查看>>
强制增加magento用户
查看>>
获取数据!!
查看>>
magento ----后台grid模块的加载 --以news插件为例个人分析(一)
查看>>
站长制定网站的SEO策略步骤
查看>>
站长浅谈企业网站多个关键字的优化方法
查看>>
解析百度11位现象和网站作弊降权
查看>>
magento-----(一)前后台url的区别分析----(二)模块的执行过程分析
查看>>
magento---后台grid加载过程分析(二)-------edit grid-----news插件为例!
查看>>
自定义Magento系统配置
查看>>
输出出错信息!!
查看>>
js首页图片切换
查看>>
magento——后台导入产品数据注意的问题
查看>>
magento------tabs的分析和使用!!!
查看>>