Ubuntu ServerでBusyBoxとか出てフリーズ、起動できなくなった

mount: mounting /sys on /root/sys failed: No such file or directory
mount: mounting /proc on /root/proc failed: No such file or directory
Target filesystem doesn't have requested /sbin/init.
No init found. Try passing init = bootarg.

BusyBox v1.1.3 (Ubuntu 1:1.1.3-1ubuntu11) built-in shell (ash)
Enter 'help' for a list o built-in commands.

(initranfs)

エラーが出るまでは普通に稼働していたUbuntu Server12.04が突然フリーズして上記エラーを起動時に表示するようになり、そこから進まなくなった。No such file or directoryの部分を見て直感でこのエラーはかなりまずいかなと思ってググってみたら、LiveCDでfsckを実行すれば治るとかあったので、参考に自分もやってみることにした。まずはHDDが壊れていないことを祈って今取り付けているポンコツより高性能なマシンに載せかえる(intel atomという低スペcpuでサーバー稼働していて、復旧作業が長くなりそうな気がしたので)

で、載せ替えた後に念のためもう一度起動してみたところ、起動時にHDDのアクセスランプが長いこと点灯したままになってなかなか画面が表示されない現象が発生。しばらく待ってたら画面が表示されて、さっきとは違う画面が表示されて、一瞬だったから覚えていないがblockがなんとかあってfsckが実行されたような感じになった。(この時はまだLiveCDは挿入していない)

その後は、ログイン画面が表示されて前と変わらないように稼働できるようになった。まるでさっきのエラーがなかったかのように。かなり古いHDDを使っていたので壊れちゃったかなと完全にあきらめモードで作業していたが、実際にやったことといえばHDDを別の高性能なマシンに載せ替えて起動してみただけ。もしかしたら、HDDが熱暴走気味になっていて、交換作業中に冷めて正常になったという可能性も、なくはない。(排熱が十分とはいえないマシンを使っていたのは事実)

上記のBusyBoxというようなエラーが出た時、あまりごちゃごちゃいじらない方がいいかもしれない。一旦落ち着いて(あきらめモードで)、HDDの熱が冷めるのを待ってもう一度起動するなど気長にやる。どのみち完全に故障なら復旧作業はそれなりに時間がかかるのだから。

それにしてもfailed: No such file or directoryというエラー文は怖すぎる。サーバー管理者を絶望させるに十分なインパクトがある。

翌日

また不具合が起こった

fsck.ext4: bad magic number in super-block while trying to re-ope
e2fsck: io manager magic bad! 

こんどは上記のようなエラーが発生した。昨日はfsckっぽいものを走らせたら直ったから今回もfsckを実行してみようかと思ってコンソールに入力すると、

Error reading block **** (Attempt to read block from filesystem resulted in short read) while getting next inode from scan.  Ignore error? yes

Force rewrite? yes

みたいな確認が膨大な量出てきた。なんかわからないがyesにするしかないよなぁ・・・と思いながらエンターキーを連打していてちょっと多すぎるからキャンセルしてやり直すかと画面みたら/varとか/etcとかのフォルダに対してdeleteとかrewriteとか実行してしまっていた。

で、再起動するも昨日のエラー画面のno such file or directoryが出て進まなくなった。→OSの再インストールを決断

私の致命的なミスは、昨日、幸運にもエラーから復旧できた時にHDD内の必要なデータをバックアップするなどの作業を怠ったこと。買ったばかりのHDDはともかく、古いHDD使ってて上記みたいなエラーが出だしたらもう交換の目安かもしれない。いや、すぐ交換すべき。この種エラーが出たらもう長くないと思ってHDDが生きている内にデータバックアップとリプレース作業を済ましておく(私が使っていたHDDはもう7,8年は使っていた)

busyboxのエラーが出たHDDその後、取り外してcrystaldiskinfoで調べてみた。健康状態は当然、注意の表示が出た。使用時間は51000時間で約6年間稼働している。もうこのHDDは引退。よく頑張ったと思う。

コメントを残す

メールアドレスが公開されることはありません。

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)