TOKYO-RC
Issues
Solved Issues
Links
SC4
- SC4 / pilot WLCG Service Workshop at Mumbai
登録は約150人位、会場にも100人以上はいた。
Tier0 Tier1の間のサービスについてミーティングだそうで、
Tier2については「LCG SC "Tier2" workshop」
http://indico.cern.ch/conferenceDisplay.py?confId=a058482
というのを6月に行う
Operations Model
http://agenda.cern.ch/askArchive.php?base=agenda&categ=a056461&id=a056461s1t11/transparencies
p9
Site contactを一本化。
p11
問題が発生しTier1,Tier2間で解決できない場合、SurviceSupportUnit
(developers)も加わる。
p12
Tier-1: role and responsibilities
Tier-1 are the RESPONSIBLE for following up and solving the problem, in
direct contact with the associated sites (Tier-2)
ATLAS Use Cases for SC4
http://agenda.cern.ch/askArchive.php?base=agenda&categ=a056461&id=a056461s2t3/transparencies
p.16
"No new requirements on the Tier-2s besides SRM SE"
VO-BOX, LFC server, FTS server はTier2には要求しない。
大きい Tier2 は自前で持つところもあるだろうとのこと。
Security Service
- SC(security challenge)に返答した。
ROC(台湾)の担当者からジョブが投げられ、そのジョブに関する情報に返事を
した。RBのログを漁ればいい。
- 投げてきたUIのIPアドレス
- 投げてきたジョブの Executable の名前
- 実行時刻
- 投げた人のDN
(From: Hiroshi Matsumoto ;
Date: Tue, 14 Mar 2006 16:10:12 +0900)
LCG 2_7_0
- LCG-2_7_0にアップグレードした。
2_6_0の時はDPMはYAIMで自動で設定でなくて手で設定するようになっており、
2_7_0では自動でできるようだが以前のDBを壊されると嫌なので、わざと手動で
行うよういくつかの変数をコメントアウトした。それが原因でYAIMでの必要な手
順が行われずに異常終了していたが、2_6_0で行った設定が生きていたので中途
半端に動いていて気づくのに時間がかかった。
From: Hiroshi Matsumoto ;
Date: Tue, 07 Mar 2006 16:32:57 +0900
- LCG-2_7_0に上げるスケジュールを考えます。
(From: Hiroshi Matsumoto ; Date: Tue, 21 Feb 2006 17:27:42 +0900)
Memory
-
From: Hiroshi Matsumoto
Date: Tue, 07 Mar 2006 16:32:57 +0900
LCGおよびテストベッドに使っているHPブレードのメモリを2GBに増設
memtest86にてメモリテストも行い全てOK。キャッシュやメインメモリの速度
も表示されるが、通常1457MB/sだが、57台中11台が1214MB/sになっている。メモ
リを交換しても遅いままだしBIOSや本体DIPSWに設定項目は特にないので速度が
遅くなる原因は謎だけど、少し遅いだけで動作はしているので放置。
-
From: Ueda I
Date: Mon, 06 Mar 2006 14:23:43 +0100
別件で過去のメールを探しているうちに、こんなの見つけました
https://mmm.cern.ch/public/archive-list/a/atlas-comp-oper/RE:%20LCG%20is%20full-550799218.EML?Cmd=open
Rod の定義は GlueHostMainMemoryRAMSize >= 600
Di Qing の見解は GlueHostMainMemoryRAMSize は文字通り、/node の値。
600MB/job が必要ならば、前に書いたように
memory_per_node * n_nodes / n_cpu
の様な計算をジョブ定義側がすべき?
-
From: Hiroshi Matsumoto ;
Date: Tue, 14 Feb 2006 16:58:00 +0900
メモリを注文したつもりでいたけど音沙汰無いので計算機室のFAXを見たら注文
書が話中で送られてなかった。あと2週間くらいかかりそう。
-
From: Ueda I
Date: Tue, 07 Feb 2006 14:36:44 +0100
田中J先生によれば
メモリー必要量 600MB は per cpu を計算しているはず
-
From: Hiroshi Matsumoto ;
Date: Tue, 07 Feb 2006 16:28:22 +0900
メモリは注文してあり1〜2週間以内に届くのでWNを順次 2GB/nodeにします。
-
From: Hiroshi Matsumoto ;
Date: Tue, 24 Jan 2006 17:11:36 +0900
HPブレードのメモリ2Gにする件。WN8台切り離して、本日8台分メモリが届い
た。7台にインストールしてmemtest86走らせ中。1台は1GBのままmemtest86中。
SE
SEのゴミ
-
From: Ueda I ;
Date: Mon, 06 Feb 2006 20:58:54 +0100
(SFTのFailure)のせいでゴミが残っていたりすると掃除が面倒
DPM SEの容量が0
-
From: Hiroshi Matsumoto ;
Date: Tue, 21 Feb 2006 17:27:42 +0900
DPM SEの容量が0。チケット出てる。WEBの情報は削除されているけど2.7のRPM
のREADMEなどを読むと何をすればいいかはわかる。でも複雑で安全性を考えると
2.7に上げるのが最善の解。
2006020910000021
-
From: "Shu-Ting" ;
Date: Thu, 9 Feb 2006 14:13:29 +0800
You can solve this problem by installing lcg-info-dynamic-dpm on SE.
Please see further info:
http://www.physics.gla.ac.uk/~graeme/scripts/
http://goc.grid.sinica.edu.tw/gocwiki/How_to_install_the_Disk_Pool_Manager_%28DPM%29
-
From: Hiroshi Matsumoto ;
Date: Tue, 07 Feb 2006 16:28:22 +0900
URLを見に行くと「私のスクリプトはLCG-2_7_0に含まれたので混乱を避ける
ため削除する」
となってWEB上に情報はありませんでした。
-
From: Hiroshi Matsumoto
Date: Tue, 17 Jan 2006 16:58:16 +0900
GStatでみると
http://goc.grid.sinica.edu.tw/gstat/TOKYO-LCG2/
使用済み容量は表示されるけど、空き容量が表示されてません。
-
From: Ueda I ;
Date: Mon, 16 Jan 2006 20:10:58 +0100
http://atlas-php.web.cern.ch/atlas-php/DbAdmin/Ora/php-4.3.4/proddb/monitor/LCGSiteIndex.php
# SE=1 というのは如何にも変?
-
From: Tetsuro Mashimo
Date: Thu, 12 Jan 2006 22:52:21 +0900 (JST)
DPM になってからの dgse0 ですが、
storage の容量が正しく info system に反映されていないのでは
ないでしょうか。
実は今日気づいたわけではなく、validation kit の NFS stale handel
云々の時に、ldapsearch コマンドをたまたまやって気づいたのですが。
今 GSTAT で見ても変ですよね。
DPM Client
-
From: Hiroshi Matsumoto
Date: Tue, 17 Jan 2006 16:53:54 +0900
おそらくLCGのパッケージングのバグで、YAIM で WN+Torque
でインストールすると、DPM-Clientというパッケージがインストールされないの
でそれを手作業でインストールしたのが 2006-01-10 22:30(JST)ごろ
-
From: Tetsuro Mashimo
Date: Mon, 09 Jan 2006 19:44:02 +0900 (JST)
Worker node に DPM client の package が install されていないんじゃ
ないですか?
また、worker node での /storage に対する automount を disable
してください。
もはや存在しない dgnas0:/dgnas0/storage01 に アクセスして
もらっては困るので。
Worker node 以外でも、dgnas0:/dgnas0/storage01 を mount しようと
するマシンがないかどうか確認してください。
RM
- 18-20日にSFTでRMのエラーが出ていた。原因を調査したけどわからずSEのリ
ブートにより解決
(From: Hiroshi Matsumoto ; Date: Tue, 21 Feb 2006 17:27:42 +0900)
[Ticket#2006021910000011] continue replica mgmt error found in Tokyo LCG
(From: APROC Trouble Ticketing System ; Date: Sun, 19 Feb 2006 16:18:15 +0000)
RGMA
-
From: Hiroshi Matsumoto ;
Date: Tue, 24 Jan 2006 17:11:36 +0900
今までSFTでRGMAのエラーが出てた。
→SecureRGMAな設定になってなかったけど、WNを新しいYAIMでconfigしなお
した。
GridICE
-
From: Hiroshi Matsumoto
Date: Tue, 17 Jan 2006 16:58:16 +0900
GridICEに関してはYAIMで SE_DPM を入れるとGridICEがインストールされませ
ん。単純に忘れているのか、SE_DPMでの検証をしていないから入れていないか不
明です。あとGridICEは 2.6.0にClassicSEで上げたときからCEが表示されない問
題があります。
-
From: Tetsuro Mashimo
Date: Thu, 12 Jan 2006 22:52:21 +0900 (JST)
ところで、GridICE の方は、東京の情報が見えませんが、
これは以前何か問題があってもだめ、という話を聞きましたが、
何が原因らしいのでしたっけ?
APEL
- APEL accounting がとれていない件修正。MySQLのテーブルが壊れていたの
で、削除して作り直したらうまく動くようになった。
(From: Hiroshi Matsumoto ;
Date: Tue, 07 Mar 2006 16:32:57 +0900)
- APELにてアカウント情報が公開されていない。チケット出てる。調査中。ログ
を見ると色々なノードでRGMA関係でエラーが沢山出ているので整理しないとわか
らない。RGMA周りは2.7に上げるのが最善の解。
(From: Hiroshi Matsumoto ; Date: Tue, 21 Feb 2006 17:27:42 +0900)
[Ticket#2006021610000026] site: tokyo-lcg didnt publish accounting results into apel r [...]
http://www2.egee.cesga.es/gridsite/accounting/CESGA/tree_egee.php
(From: APROC Trouble Ticketing System ; Date: Thu, 16 Feb 2006 09:58:56 +0000)
CIC
-
From: Ueda I
Date: Mon, 06 Feb 2006 20:58:54 +0100
CIC の RC report はログのエラー部分を記録してリストして
おくべきという気がしますがいかがでしょう
VO SW
- VO_*_SW_DIR=/opt/exp_soft/*
- /etc/profile.d/lcgenv.(c)sh
- yaimのsite-info.defで
VO_SW_DIR=/opt/exp_soft
VO_ATLAS_SW_DIR=$VO_SW_DIR/atlas
(From: Jun Ebihara ;
Date: Fri, 03 Feb 2006 03:17:47 +0900 (JST))
ATLAS SW
-
From: Kondo Gnanvo ;
Date: Mon, 06 Feb 2006 20:38:44 +0000
Good news ;-)
11.0.4 is installed and KV ran perfectly well so the release is tagged
at you site.
-
From: Hiroshi Matsumoto
Date: Tue, 24 Jan 2006 17:11:36 +0900
NFSエラーの件。ログには
kernel: nfs: server local-dgnas0.icepp.local not responding, still trying
kernel: nfs: server local-dgnas0.icepp.local OK
といったものが以前から頻繁に記録されているけどこれがエラーなのか?
今までOKが出てるので大丈夫かなと思っていた。
-
From: Ueda I
Date: Mon, 23 Jan 2006 13:11:44 +0100
アレッサンドロに直接聞いた所、このエラーの出る validation は
https://uimon.cern.ch/twiki/bin/view/Atlas/UseTheKitValidationSuiteToValidateYourInstallation
にある test.sh
を $VO_ATLAS_SW_DIR の下に temporary subdir を作って
RELEASE=11.0.3
PACMANDIR=$VO_ATLAS_SW_DIR/pacman-3.15
ATLAS_ROOT=$VO_ATLAS_SW_DIR/software/$RELEASE
TEMPDIR=$PWD
として走らせているそうです
-
From: Hiroshi Matsumoto
Date: Tue, 17 Jan 2006 16:53:54 +0900
まだ返信してないです。
おそらくLCGのパッケージングのバグで、YAIM で WN+Torque
でインストールすると、DPM-Clientというパッケージがインストールされないの
でそれを手作業でインストールしたのが 2006-01-10 22:30(JST)ごろなので
https://atlas-install.roma1.infn.it/atlas_install/jobs.php?relfk=1059
でわかる
11.0.3 failed 2006-01-10 10:44:37
よりも後に作業を行ったものと思われます。DPM-clientが無いのが原因ならもう
一回やってもらってもいいかもしれません。
-
From: Tetsuro Mashimo
Date: Mon, 09 Jan 2006 19:44:02 +0900 (JST)
Worker node に DPM client の package が install されていないんじゃ
ないですか?
また、worker node での /storage に対する automount を disable
してください。
もはや存在しない dgnas0:/dgnas0/storage01 に アクセスして
もらっては困るので。
Worker node 以外でも、dgnas0:/dgnas0/storage01 を mount しようと
するマシンがないかどうか確認してください。
-
From: "Kondo GNANVO"
Date: Mon, 9 Jan 2006 10:11:53 -0000
Dear site administrators,
I have installed 11.0.3 at your site and tried to validate it with the KV test.
The job was running on hpbwn13-6.icepp.local for TOKYO-LCG2 ( dgce0.icepp.jp)
and on lcg017.jinr.ru for JINR-LCG2 (lcgce01.jinr.ru)
The validation test failed at
DC3 Z -> e e Reconstruction [FAILED]
with this error message :
SysError in : error reading from file KitValidation-DC3EvgenZee-11.0.3.pool.root (Stale NFS file handle)
This error reveals a general failure of the NFS server for overload.
Could you please have a look on what is going wrong and let me know once it is fixed so I can validate the installation.
Thank in advance
Regards
Kondo
Managing this site
Last update