こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

解決済みの質問

サーバーが落ちてしまう原因について

現在、solaris8(SunOS 5.8)のWebサーバを運用しております。
最近、1日に10回以上もサーバが落ちてしまう現象が起こっており、自動復旧するときとしない時があります。
前回同様の質問させていただいたときは、「cs00.sh」が原因ではないかと考え停止させたのですが、変化がありませんでした。
http://okwave.jp/qa4072410.html

起動時に「Desktop Login」のメッセージが表示されてログイン画面が表示されるのですが、この画面が起動するときに落ちてしまうこともあります。GUIの画面を表示させない方法についてお教えください。

状況的に悪い時は、5分おきくらいにサーバーが落ちてしまいます。問題を探るのには、/var/adm/messagesのログを見ているのですが、他に確認するファイルはありますでしょうか?何とか原因を探りたいと考えております。

宜しくお願いいたします。

投稿日時 - 2008-06-26 13:20:57

QNo.4130597

すぐに回答ほしいです

質問者が選んだベストアンサー

エラーメッセージの詳しい原因は分かりませんが、もう ntp を気にしている局免では
ないと思います。ちなみに、 ntp は時刻修正です。

「/export/home busy」は、もしかして、ログインした自分がそこに居ませんか?

いきなりロギングにするのもどんな危険があるかもしれませんが、可能であれば以下の方法で
試してみてください。

# DATがついているということですので、各ボリュームのバックアップがあることが前提です。

1) シングルユーザモードで再起動
2) 各ボリュームをfsck
3) /etc/vfstab を /etc/vfstab.20080628などの名でコピーしておく 
4) /etc/vfstab に logging を設定
5) 再起動

起動しなくなったら、バックアップからリストアしてください。

投稿日時 - 2008-06-28 01:24:23

お礼

dyna_1550 さま

ご連絡が遅くなりすみません。
ここ数日アドバイスをいただき自分なりに何とかしようと対応していたのですが、昨日サーバーが起動しなくなりました。(OSが起動しない。)それで、急遽新しいサーバーにデータを載せ変えて昨日1日かけて復旧作業を行なっていました。
同じHPのサーバーの筐体に乗せかえるなど対応してみたのですが、それまでに破損していたファイルが多く起動しなくなってしまいました。
いろいろとアドバイスいただいたのにも関わらず残念な結果になってしまいました。お手間を取らせてしまい申し訳ありません。

いろいろとありがとうございました。

投稿日時 - 2008-07-01 13:56:45

このQ&Aは役に立ちましたか?

40人が「このQ&Aが役に立った」と投票しています

回答(7)

ANo.7

こんにちは、調子が悪いようですね
SUNのH/W保守を仕事にしている者です。
(sparcオンリーですが)

まず状況は以下のどれでしょうか?
(文章から(1)か(2)だと思いますが…)
(1)サーバが落ちてしまう
(2)サーバが再起動してしまう
(3)サーバがハングアップ(固まって)しまう

次にH/WかS/W(OS、ファイルシステム)の切り分けのためにディスクからbootせずにminirootやdosの状態で放置出来ますか?
(minirootはOSインストールのCDから起動させて何も入力しなければOKです。)
この状態で現象が発生すればH/W、発生しなければS/Wを疑いましょうか。

次にメッセージの確認です。やはりココが重要ですね。
/var/adm/messages(errorやWARNINGやpanicでgrepして下さい)、dmesg、dumpデバイスにcrashdumpが作成されているか
(もちろん作成する設定になっている。dumpadmの結果を確認下さい)
crashdump作成されていたら
# crash -d vmcore.0 -n unix.0<CR>
>(サブコマンド入力待ちになる)
>status<CR>

この辺りの情報は採取可能ですか?
あと、先に回答された方の言われるとおりバックアップがあると安心ですね。
(5分程で落ちるなら取れないかもしれませんが)

投稿日時 - 2008-07-01 13:53:26

お礼

3899 さま

ありがとうございます。
結論を申しますと、昨日OSが起動しなくなり別のサーバーに差替えて復旧作業を行ないました。
昨日のサーバーの状態は、「Finish Reading Files」の箇所で「syncing file systems [3] 8 [3] 6 [3] [3] [3]・・・give up」と表示され再起動を繰り返す状態でした。(数字はそれぞれ違ったような気がします。)
vmcoreは落ちる度に作成されていましたが、最近の3~4日間は/var領域が圧迫されてしまうため、直近の3ファイル程度は残して後は削除をしていました。(現在は、/var 100% でvmcoreファイルは作成されません。)再起動を繰り返すときは、vmcoreファイルを読み込む途中でPANICのエラーが表示され100%まで読み込まない状態でした。

今回、いろいろな方からお教えいただいたのですが、自分のスキルの無さを痛感しました。リスク管理ができていませんので、障害時の対応など勉強をしていきます。(特にsolaris)

投稿日時 - 2008-07-01 14:30:01

ANo.6

HW周りの原因の可能性が高いので、memtest86などでmemoryのチェック
を行ったほうがいいと思います。

ただ、messagesをみると、明らかにデータロストを起こしていると思うので再インストールも前提で考えたほうがいいですね。

投稿日時 - 2008-07-01 12:53:48

お礼

bose7172さま

ありがとうございます。
先程、アドバイスいただいた方にお礼をしたのですが、昨日OSが起動しなくなりました。solarisのサーバーは他にもありますので、ご意見を生かしていきたいと思います。

投稿日時 - 2008-07-01 13:59:06

ANo.4

/var/adm/messages にそれらしき記録がないという状況では、
僕程度の人間にはちょっとお手上げです。

僕はcoreの解析まではしたことがないのですがこの辺りを見てcoreの解析にチャレンジしますか?
http://docs.sun.com/app/docs/doc/806-2718/6jbtrjv3v?l=ja&a=view

僕も#1の方と同じく、HW障害なのでは、と思いますが、何度もFSCK
すると、失われるファイルも出てくると思います。
Solaris8にはUFSロギングができますので、以下を参考に
loggingオプションを付ける事をお勧めします。
http://solaris-user.com/solaris_beans/ufslogging.html

投稿日時 - 2008-06-27 20:22:23

補足

dyna_1550さん

早速、loggingの設定を行なってみました。しかし、/export/homeで
umountすると、「/export/home busy」と表示されてしまいます。これでは設定は変更されていないということでしょうか?
ちなみに、vfstab上では、/usr /var について変更を行いました。

変更途中で、下記のエラーメッセージが表示されました。致命的なエラーなのかどうかもわかりません。
----------------------------------------------------------------
[ホスト名] xntpd[1425] Segmentation Fault -core dumped
[ホスト名] xntpd[1425] getnetnum: "127.127.XType.0" invalid host number, line ignored
[ホスト名] xntpd[1425] can't open keyfile /etc/inet/ntp.keys :No such file or directory
[ホスト名] xntpd[1425] trusted key0 unlikely
[ホスト名] xntpd[1425] 0 makes a poor request keyid
[ホスト名] xntpd[1425] 0 makes a poor control keyid
----------------------------------------------------------------
どうぞ宜しくお願いいたします。

投稿日時 - 2008-06-27 21:19:46

お礼

dyna_1550さん
ありがとうございます。
さすがにcoreの解析を行なうにはスキルと理解力に限界があります。
>僕も#1の方と同じく、HW障害なのでは、と思いますが、何度もFSCK
>すると、失われるファイルも出てくると思います。

この一週間で自動復旧時も含めて100回以上はFSCKしています。
失われたファイルが原因で、さらに障害状況が加速している可能性もあります。
まずは、お教えいただいたUFSロギングを実行してみます。

ありがとうございました。

投稿日時 - 2008-06-27 20:50:59

ANo.3

解決してなかったんですね、失礼しました。

以下のコマンドを打って再起動すれば、テキストログインになるはずです。
/usr/dt/bin/dtconfig -d

再度有効にする場合は以下のコマンドで。
/usr/dt/bin/dtconfig -e

dtconfigのマニュアルページ(solaris10ですが、基本的に同じなはず)
http://docs.sun.com/app/docs/doc/816-4020/6ma8snlk1?a=view

さらに、Solaris8のマニュアル類はココ
http://docs.sun.com/app/docs/prod/solaris.8?l=ja#hic

VTSは、サプリメントCDに入っていると思います。
参考
http://docs.sun.com/app/docs/doc/806-6176/6jf4tdo1k?l=ja&a=view

ちなみに、Sparcですか?Intelですか?
差し支えなければ機種やHW構成なども書かれるとアドバイスも増えるかもしれません。

投稿日時 - 2008-06-27 16:41:53

お礼

dyna_1550さん

事細かくお教えいただき感謝です。ありがとうございます。
ちなみに、「Solaris8 Intel版」です。
サーバの機種・構成は下記となっています。5~6年位経っています。
機種名:HP NetServer E60
HDD:9.1GB
メモリ:256MB
CPU:Pentium3 550MHz
あとは、DATドライブ、CDドライブが付いております。
その他のHW構成については調査できていません。
用途:Webサーバ、Mailサーバー

現在、WebサーバーとしてもMailサーバーとしても致命的な状態ですので、データを移管して復旧をおこなおうとしています。

どうぞ宜しくお願いいたします。

投稿日時 - 2008-06-27 17:07:05

ANo.2

解決されているようですが・・・

OS上からHWの確認をするには、SunVTSでデバイスのテストができます。
参考まで。

投稿日時 - 2008-06-26 23:01:18

補足

dyna_1550さん

回答ありがとうございます。
残念ながら解決できておりません。。。
SunVTSがインストールされていないという事がわかり、途方に暮れてお
ります。現在は、30分置きくらいに再起動する状況です。
ログインすると「共通デスクトップ環境 CDE1.4」の画面が表示されてデスクトップ環境になりますが、このデスクトップ環境自体を停止することは可能でしょうか?

どうぞ宜しくお願いいたします。

投稿日時 - 2008-06-27 15:50:28

ANo.1

ソフト的なものではなくハード的なものということはないですかね?
HDDやメモリ不良、CPUや電源その他構成部品が原因で落ちてしまうこともありますよ。

投稿日時 - 2008-06-26 13:34:15

補足

shippoさん
グラフィックカードを交換してもサーバが落ちるのが解消されませんでした。他に問題があるということですね。
ちなみに、コンソール画面から作業を行なっていると突然フリーズして落ちてしまいました。現在、かなり不安定な状況です。
せめて、GUIの画面をストップさせたいのですが、方法をご存知でしょうか?

どうぞ宜しくお願いいたします。

投稿日時 - 2008-06-26 20:24:13

お礼

shippoさん
回答ありがとうございます。
とてもタイムリーなのですが、本日相談をした後の14:00頃グラフィックカードが壊れてモニタに写らなくなりました。代替のグラフィックカードをさした所、復旧し現在は安定しています。
グラフィックカードの問題ですかね。これで解決できれば良いのですが。。あまりサーバについて詳しくないためビクビクしています。。
この後、様子を見ようと思います。

ありがとうございました。

投稿日時 - 2008-06-26 14:30:44

あなたにオススメの質問