SEAGATEのハードディスクに不良品の疑い

先日購入したばかりのSEAGATE ST31000333ASというハードディスクに問題がある可能性が出てきた。問題が発生するとデータにアクセスをすることができなくなってしまうとか。しかし、ファームウェアをアップデートすると復旧することは可能になるとも。今のところ問題は表面化はしていないけれど、ごく最近にニュースが出てしまうとなんともスッキリしない。osはlinuxなんだけれどもチェックとかは出来るのだろうか・・・。

msi7.jpgBarracuda 7200.11 とバッチリ書いている模様。

Seagate製ハードディスクのファームウェアに致命的な不具合、起動不能・アクセス不能になることが判明

しばらく使ってみたところ異常なし

異常があるファームのバージョンではなかった模様。たまに怪しい挙動を示すこともあるが・・・。それにしてもこのHDD,やたら速い。重量が割とあるのでプラッタ枚数は4枚じゃないかと思うが,読み書きの速度が壊れているんじゃないかと思うほどに速い。特にデータベースでの運用に使ってみるとその速さがよくわかる。不具合騒動でケチがついたとはいえ,この速さは他の物に代えがたい。

MSI Wind Nettop CD100の詳細 その2(マシンチェック編)

組み立て編はこちら→MSI Wind Nettop CD100の詳細(組み立て編)

先日組み立てたMSI Wind Nettop CD100にOSをインストールした。Linuxのdebianという名前のディストリビューションを。インストール作業は特に問題は起こらず無事に終わった。あらかじめ用意したdebianのインストールCDを作成しておき、本体の電源を入れた後にCDを挿入して何かキーを押すとインストールが始まる。その後はウィザードに従っていくことで何の問題もなく作業は完了させることができた。ところで、このnettop100というマシンは、biosの設定というもののやり方が今のところ不明。普通、本体の電源を入れるとマザーの製造元のロゴが画面表示されて、F1かF2キーを入力するとセットアップとかなんとかという画面が表示されるかと思っていたが、そんなものをすっとばしていきなりドライブの読み込みを始めた。何か設定方法が必ずあると思うが、説明書の中には見当たらない。そして、マシンスペックもcpuのクロック数やメモリが認識されているかどうかということも、起動直後ではまったくわからない。

続きを読む MSI Wind Nettop CD100の詳細 その2(マシンチェック編)

crawl217.tkl.iis.u-tokyo.ac.jp というクローラーがサイトに頻繁にアクセスしている

apacheのログを見てみると、crawl217.tkl.iis.u-tokyo.ac.jpというクローラーが頻繁にアクセスしていることがわかった。ログにurlがあって、http://www.tkl.iis.u-tokyo.ac.jp/~crawler/にクローラーの説明がある。その説明は、

Steeler とは? 何をしているの?

Steeler は Web クローラ (ロボット) , すなわち自動的に Web 上のページを渡り歩くソフトウェアです. 開発と運用は 東京大学 喜連川研究室 で行なわれています. 当研究室ではクローリングで収集した文書を元にサイバー空間の性質の 分析や理解に取り組んでいます.

当方の目的は公開された文書をなるべく大量に集めることにあり, サイト管理者の方々にご迷惑をおかけすることは決して本意ではありません. もし, Steeler のアクセスがあなたのサイトに問題を起こすようでしたら, 下記の方法で ロボット除け の設定をして頂くか, 当方 までご連絡をお願いします. ご協力よろしくお願いします.

研究室での分析や理解をするためにクローラーが情報収集をしている、ということらしい。

MSI Wind Nettop CD100の詳細(組み立て編)

MSI Wind Nettop CD100という機種を通販で購入してみたので、その組み立て方法とosインストールして稼動状態をメモ。この機種はいわゆるベアボーンキットと呼ばれるPCであるため、本体以外に別途必要なパーツを用意しなければならない。マザーボードとCPU、光学ドライブなどはあらかじめセットされているので、ハードディスクとメモリを別に用意する。今回はSEAGATE ST31000333ASという型番の容量は1TBのハードディスクと、Team Eliteという謎のブランドのメモリ容量2GBを使って組み立てる。

続きを読む MSI Wind Nettop CD100の詳細(組み立て編)

sennaのインストール

かなり嵌ったので備忘録。sennaをインストールする際、configureのオプションを指定しないと、デフォルトの文字コードはeuc-jpでconfigureをすることになる。mecabで文字コードをutf8に設定するならば、sennaもそれに合わせて文字コードをutf8に設定しなければならない。あとsennaのconfigure時に何箇所か問題が起こるところがある。

続きを読む sennaのインストール

マシンスペックとデータベースのパフォーマンスの関係

マシンが高性能であればあるほど良いに越したことはないが、データベースソフトウェアのパフォーマンスにおいてはマシンの高性能化はあまり意味があるとはいえない。データベースのパフォーマンスを向上させるためには、データベースのテーブルの設計とそれに合わせたsql文のチューニング、そしてデータベースソフトウェア自体のチューニングがほとんどを占める。マシンスペックをあげても、たとえばcpuの処理の能力とメモリ容量を倍にしたとしても、パフォーマンス面ではその投資分の効果は得られない。 例えばメモリを増強すると同時接続やキャッシュなどのサイズを大きく取ることができる。cpuの処理速度はどうかというと、一回のsql文を実行した速度では、高スペックマシンと低スペックマシンではさほど差が表れなかった。試してみたところ、cpuがppc200Mhzでメモリ64MBの玄箱と、cpuがクアッドコア2.1Ghzでメモリ2GBのサーバーマシンでmysqlを使って速度比較をしたてみたら、sqlのselect文の実行にかかる時間は両者ほとんど変わらなかった。

続きを読む マシンスペックとデータベースのパフォーマンスの関係

SQL_CALC_FOUND_ROWSの効果

mysqlでは行数のカウントをするのにSQL_CALC_FOUND_ROWSというのを使うことができるようだが、where句に条件を指定した場合だとcount(*)でレコードをカウントする場合と大差ない結果となった。SQL_CALC_FOUND_ROWSを使うことで速度的には向上は見込めない。レコード数が100万件を超える場合にwhere句で条件を指定してそのレコード数をカウントするという場合には、一度グループ化で行数をカウントした後でその結果を合計したほうが若干速く処理することができる。

インデックス列には日本語よりも英数字を使うほうが良いのか悪いのか

テーブル内に存在するレコード数をカウントする時、where句にインデックス列を条件として指定して実行時間がどれほどかかるかテストをしてみた。テーブルの全レコード数は約1600万レコードで、カウントすべきレコード数はそのうちおよそ約70万レコードであるとする。サーバのスペックとしてはcpuがAMDのクアッドコア2.1GHzでメモリ2GB、DBソフトウェアはmysql5.0といったところ。

続きを読む インデックス列には日本語よりも英数字を使うほうが良いのか悪いのか

結果の行数をカウントする

mysqlで結果の行数をカウントするsql文は、


seletc count(*) from foo;

で取得するのが最も簡単ではあるけれど、レコード数が膨大な場合にはパフォーマンスの面で問題になる場合がある。パターンマッチングで検索する場合、Like演算子を使って

続きを読む 結果の行数をカウントする