TOKYO-RC

Issues

SC4
Security Service Challenge
SFTでRMのエラー
CIC の RC report はログのエラー部分を記録してリストしておくべき
SEのゴミ

Solved Issues

LCG-2_7_0に上げるスケジュール
メモリ増強計画
DPM SEの容量が0
APELにてアカウント情報が公開されていない
VO Software
ATLAS Software
RGMA

SC4

SC4 / pilot WLCG Service Workshop at Mumbai
登録は約150人位、会場にも100人以上はいた。
Tier0 Tier1の間のサービスについてミーティングだそうで、 Tier2については「LCG SC "Tier2" workshop」 http://indico.cern.ch/conferenceDisplay.py?confId=a058482 というのを6月に行う

Operations Model http://agenda.cern.ch/askArchive.php?base=agenda&categ=a056461&id=a056461s1t11/transparencies
p9 Site contactを一本化。
p11 問題が発生しTier1,Tier2間で解決できない場合、SurviceSupportUnit (developers)も加わる。
p12 Tier-1: role and responsibilities Tier-1 are the RESPONSIBLE for following up and solving the problem, in direct contact with the associated sites (Tier-2)

ATLAS Use Cases for SC4 http://agenda.cern.ch/askArchive.php?base=agenda&categ=a056461&id=a056461s2t3/transparencies
p.16 "No new requirements on the Tier-2s besides SRM SE" VO-BOX, LFC server, FTS server はTier2には要求しない。大きい Tier2 は自前で持つところもあるだろうとのこと。

Security Service

SC(security challenge)に返答した。 ROC(台湾)の担当者からジョブが投げられ、そのジョブに関する情報に返事をした。RBのログを漁ればいい。
- 投げてきたUIのIPアドレス
- 投げてきたジョブの Executable の名前
- 実行時刻
- 投げた人のDN
(From: Hiroshi Matsumoto ; Date: Tue, 14 Mar 2006 16:10:12 +0900)

LCG 2_7_0

LCG-2_7_0にアップグレードした。 2_6_0の時はDPMはYAIMで自動で設定でなくて手で設定するようになっており、 2_7_0では自動でできるようだが以前のDBを壊されると嫌なので、わざと手動で行うよういくつかの変数をコメントアウトした。それが原因でYAIMでの必要な手順が行われずに異常終了していたが、2_6_0で行った設定が生きていたので中途半端に動いていて気づくのに時間がかかった。
From: Hiroshi Matsumoto ; Date: Tue, 07 Mar 2006 16:32:57 +0900
LCG-2_7_0に上げるスケジュールを考えます。
(From: Hiroshi Matsumoto ; Date: Tue, 21 Feb 2006 17:27:42 +0900)

Memory

From: Hiroshi Matsumoto Date: Tue, 07 Mar 2006 16:32:57 +0900
LCGおよびテストベッドに使っているHPブレードのメモリを2GBに増設 memtest86にてメモリテストも行い全てOK。キャッシュやメインメモリの速度　も表示されるが、通常1457MB/sだが、57台中11台が1214MB/sになっている。メモリを交換しても遅いままだしBIOSや本体DIPSWに設定項目は特にないので速度が遅くなる原因は謎だけど、少し遅いだけで動作はしているので放置。
From: Ueda I Date: Mon, 06 Mar 2006 14:23:43 +0100
別件で過去のメールを探しているうちに、こんなの見つけました https://mmm.cern.ch/public/archive-list/a/atlas-comp-oper/RE:%20LCG%20is%20full-550799218.EML?Cmd=open Rod の定義は GlueHostMainMemoryRAMSize >= 600 Di Qing の見解は GlueHostMainMemoryRAMSize は文字通り、/node の値。 600MB/job が必要ならば、前に書いたように memory_per_node * n_nodes / n_cpu の様な計算をジョブ定義側がすべき？
From: Hiroshi Matsumoto ; Date: Tue, 14 Feb 2006 16:58:00 +0900
メモリを注文したつもりでいたけど音沙汰無いので計算機室のFAXを見たら注文書が話中で送られてなかった。あと2週間くらいかかりそう。
From: Ueda I Date: Tue, 07 Feb 2006 14:36:44 +0100
田中Ｊ先生によればメモリー必要量 600MB は per cpu を計算しているはず
From: Hiroshi Matsumoto ; Date: Tue, 07 Feb 2006 16:28:22 +0900
メモリは注文してあり１～２週間以内に届くのでWNを順次 2GB/nodeにします。
From: Hiroshi Matsumoto ; Date: Tue, 24 Jan 2006 17:11:36 +0900
HPブレードのメモリ2Gにする件。WN8台切り離して、本日8台分メモリが届いた。7台にインストールしてmemtest86走らせ中。1台は1GBのままmemtest86中。

SE

SEのゴミ

From: Ueda I ; Date: Mon, 06 Feb 2006 20:58:54 +0100
(SFTのFailure)のせいでゴミが残っていたりすると掃除が面倒

DPM SEの容量が0

From: Hiroshi Matsumoto ; Date: Tue, 21 Feb 2006 17:27:42 +0900
DPM SEの容量が0。チケット出てる。WEBの情報は削除されているけど2.7のRPM のREADMEなどを読むと何をすればいいかはわかる。でも複雑で安全性を考えると 2.7に上げるのが最善の解。

2006020910000021
From: "Shu-Ting" ; Date: Thu, 9 Feb 2006 14:13:29 +0800
You can solve this problem by installing lcg-info-dynamic-dpm on SE. Please see further info: http://www.physics.gla.ac.uk/~graeme/scripts/ http://goc.grid.sinica.edu.tw/gocwiki/How_to_install_the_Disk_Pool_Manager_%28DPM%29
From: Hiroshi Matsumoto ; Date: Tue, 07 Feb 2006 16:28:22 +0900
URLを見に行くと「私のスクリプトはLCG-2_7_0に含まれたので混乱を避けるため削除する」となってWEB上に情報はありませんでした。
From: Hiroshi Matsumoto Date: Tue, 17 Jan 2006 16:58:16 +0900
GStatでみると http://goc.grid.sinica.edu.tw/gstat/TOKYO-LCG2/ 使用済み容量は表示されるけど、空き容量が表示されてません。
From: Ueda I ; Date: Mon, 16 Jan 2006 20:10:58 +0100
http://atlas-php.web.cern.ch/atlas-php/DbAdmin/Ora/php-4.3.4/proddb/monitor/LCGSiteIndex.php
＃ SE=1 というのは如何にも変？
From: Tetsuro Mashimo Date: Thu, 12 Jan 2006 22:52:21 +0900 (JST)
DPM になってからの dgse0 ですが、 storage の容量が正しく info system に反映されていないのではないでしょうか。実は今日気づいたわけではなく、validation kit の NFS stale handel 云々の時に、ldapsearch コマンドをたまたまやって気づいたのですが。今 GSTAT で見ても変ですよね。

DPM Client

From: Hiroshi Matsumoto Date: Tue, 17 Jan 2006 16:53:54 +0900
おそらくLCGのパッケージングのバグで、YAIM で WN+Torque でインストールすると、DPM-Clientというパッケージがインストールされないのでそれを手作業でインストールしたのが 2006-01-10 22:30(JST)ごろ
From: Tetsuro Mashimo Date: Mon, 09 Jan 2006 19:44:02 +0900 (JST)
Worker node に DPM client の package が install されていないんじゃないですか？
また、worker node での /storage に対する automount を disable してください。もはや存在しない dgnas0:/dgnas0/storage01 にアクセスしてもらっては困るので。 Worker node 以外でも、dgnas0:/dgnas0/storage01 を mount しようとするマシンがないかどうか確認してください。

RM

18-20日にSFTでRMのエラーが出ていた。原因を調査したけどわからずSEのリブートにより解決
(From: Hiroshi Matsumoto ; Date: Tue, 21 Feb 2006 17:27:42 +0900)
[Ticket#2006021910000011] continue replica mgmt error found in Tokyo LCG
(From: APROC Trouble Ticketing System ; Date: Sun, 19 Feb 2006 16:18:15 +0000)

RGMA

From: Hiroshi Matsumoto ; Date: Tue, 24 Jan 2006 17:11:36 +0900
今までSFTでRGMAのエラーが出てた。　　→SecureRGMAな設定になってなかったけど、WNを新しいYAIMでconfigしなおした。

GridICE

From: Hiroshi Matsumoto Date: Tue, 17 Jan 2006 16:58:16 +0900
GridICEに関してはYAIMで SE_DPM を入れるとGridICEがインストールされません。単純に忘れているのか、SE_DPMでの検証をしていないから入れていないか不明です。あとGridICEは 2.6.0にClassicSEで上げたときからCEが表示されない問題があります。
From: Tetsuro Mashimo Date: Thu, 12 Jan 2006 22:52:21 +0900 (JST)
ところで、GridICE の方は、東京の情報が見えませんが、これは以前何か問題があってもだめ、という話を聞きましたが、何が原因らしいのでしたっけ？

APEL

APEL accounting がとれていない件修正。MySQLのテーブルが壊れていたので、削除して作り直したらうまく動くようになった。
(From: Hiroshi Matsumoto ; Date: Tue, 07 Mar 2006 16:32:57 +0900)
APELにてアカウント情報が公開されていない。チケット出てる。調査中。ログを見ると色々なノードでRGMA関係でエラーが沢山出ているので整理しないとわからない。RGMA周りは2.7に上げるのが最善の解。
(From: Hiroshi Matsumoto ; Date: Tue, 21 Feb 2006 17:27:42 +0900)
[Ticket#2006021610000026] site: tokyo-lcg didnt publish accounting results into apel r [...]
http://www2.egee.cesga.es/gridsite/accounting/CESGA/tree_egee.php
(From: APROC Trouble Ticketing System ; Date: Thu, 16 Feb 2006 09:58:56 +0000)

CIC

From: Ueda I Date: Mon, 06 Feb 2006 20:58:54 +0100
CIC の RC report はログのエラー部分を記録してリストしておくべきという気がしますがいかがでしょう

VO SW

VO_*_SW_DIR=/opt/exp_soft/*
/etc/profile.d/lcgenv.(c)sh
yaimのsite-info.defで VO_SW_DIR=/opt/exp_soft VO_ATLAS_SW_DIR=$VO_SW_DIR/atlas (From: Jun Ebihara ; Date: Fri, 03 Feb 2006 03:17:47 +0900 (JST))

ATLAS SW

From: Kondo Gnanvo ; Date: Mon, 06 Feb 2006 20:38:44 +0000
Good news ;-) 11.0.4 is installed and KV ran perfectly well so the release is tagged at you site.

From: Hiroshi Matsumoto Date: Tue, 24 Jan 2006 17:11:36 +0900
NFSエラーの件。ログには
kernel: nfs: server local-dgnas0.icepp.local not responding, still trying
kernel: nfs: server local-dgnas0.icepp.local OK
といったものが以前から頻繁に記録されているけどこれがエラーなのか？今までOKが出てるので大丈夫かなと思っていた。

From: Ueda I Date: Mon, 23 Jan 2006 13:11:44 +0100
アレッサンドロに直接聞いた所、このエラーの出る validation は https://uimon.cern.ch/twiki/bin/view/Atlas/UseTheKitValidationSuiteToValidateYourInstallation にある test.sh を $VO_ATLAS_SW_DIR の下に temporary subdir を作って
RELEASE=11.0.3
PACMANDIR=$VO_ATLAS_SW_DIR/pacman-3.15
ATLAS_ROOT=$VO_ATLAS_SW_DIR/software/$RELEASE
TEMPDIR=$PWD
として走らせているそうです
From: Hiroshi Matsumoto Date: Tue, 17 Jan 2006 16:53:54 +0900
まだ返信してないです。
おそらくLCGのパッケージングのバグで、YAIM で WN+Torque でインストールすると、DPM-Clientというパッケージがインストールされないのでそれを手作業でインストールしたのが 2006-01-10 22:30(JST)ごろなので https://atlas-install.roma1.infn.it/atlas_install/jobs.php?relfk=1059 でわかる 11.0.3 failed 2006-01-10 10:44:37 よりも後に作業を行ったものと思われます。DPM-clientが無いのが原因ならもう一回やってもらってもいいかもしれません。
From: Tetsuro Mashimo Date: Mon, 09 Jan 2006 19:44:02 +0900 (JST)
Worker node に DPM client の package が install されていないんじゃないですか？
また、worker node での /storage に対する automount を disable してください。もはや存在しない dgnas0:/dgnas0/storage01 にアクセスしてもらっては困るので。 Worker node 以外でも、dgnas0:/dgnas0/storage01 を mount しようとするマシンがないかどうか確認してください。
From: "Kondo GNANVO" Date: Mon, 9 Jan 2006 10:11:53 -0000
Dear site administrators,
I have installed 11.0.3 at your site and tried to validate it with the KV test. The job was running on hpbwn13-6.icepp.local for TOKYO-LCG2 ( dgce0.icepp.jp) and on lcg017.jinr.ru for JINR-LCG2 (lcgce01.jinr.ru)
The validation test failed at
DC3 Z -> e e Reconstruction [FAILED]
with this error message :
SysError in : error reading from file KitValidation-DC3EvgenZee-11.0.3.pool.root (Stale NFS file handle)
This error reveals a general failure of the NFS server for overload. Could you please have a look on what is going wrong and let me know once it is fixed so I can validate the installation.
Thank in advance
Regards
Kondo

Managing this site

Site Configuration

Last update

TOKYO-RC

Issues

Links

SC4

Security Service

LCG 2_7_0

Memory

SE

RM

RGMA

GridICE

APEL

CIC

VO SW

ATLAS SW