#コラム

可用性管理とは? 基本情報とITILとの関連性を解説

更新日:
可用性管理とは? 基本情報とITILとの関連性を解説
  • 現代社会において多くの企業が業務でITシステムを活用しており、ITシステムがストップしてしまうと、業務が止まる恐れがあります。そのためITシステムが継続的にパフォーマンスを発揮できるような取り組みが必要となります。

    ITシステムのパフォーマンスを安定させるために必要なのが可用性管理です。可用性管理とは、ITシステムに対し、目標となる可用性レベルを設定して、稼働中にそれを満たすために監視、維持、改善する作業です。本記事では、可用性管理の詳細について解説します。

    本記事を読むことで以下について分かります。

    ● 可用性管理とは何か
    ● 可用性管理に求められる5つの要素
    ● 可用性管理とキャパシティ管理の違い

  • 可用性管理とは:ITシステムの継続した稼働を目指すプロセス

    可用性管理とは:ITシステムの継続した稼働を目指すプロセス

    可用性管理とはITシステムの稼働を継続できるように、ITシステムの設計から実装、監視・報告、改善までの一連のプロセスです。

    ITシステムの継続した稼働を目指すには、以下の4つのプロセスを行います。

    ● 設計
    ● 実装
    ● 監視・報告
    ● 改善

    それぞれ確認していきましょう。

    プロセス1:設計

    設計では障害発生ポイントを洗い出し、バックアップ手法および復旧手法を決定します。
    設計時に必ず考慮しなければならないリスクに挙げられるのは、ネットワーク障害やデータ破壊、ハードウェア故障、電源の一時的な供給停止などです。
    またこれらのリスクを回避するためには、回避措置の設定も必要です。設定内容には定期的なデータバックアップや待機系の準備と切り替え手順の作成、ネットワークの二重化、電源の二重化、UPS設置などがあります。
    加えてリスクが発生した際の手順書を作成しましょう。リスク発生時の対応方法を事前にまとめておくことで、リスク発生時に焦らずスピーディーな対応が可能です。待機系へ切り替えた後の正常系への復旧手順や、データベース障害時のバックアップデータからの復旧手順を作成しておくことをおすすめします。
    設計の際に考慮すべき点については、後述する可用性管理に求められる5つの要素の項目で解説します。

    プロセス2:実装

    続いて実装を行います。設計した内容を運用体制構築、システム構築に反映させてください。

    プロセス3:監視・報告

    監視・報告のプロセスではまず、可用性、信頼性、保守性を計測する指標の監視を実施します。監視している中で事前に定めた閾値を超えたら、マニュアルなどの手順に従って対応します。その際は、関係者への報告も忘れないようにしてください。

    監視を行うことで可用性の改善を目指せるだけでなく、監視して稼働状況を維持し、損害を回避しやすくなります。

    プロセス4:改善

    監視の結果は定期的にレビューを行いましょう。その結果によっては改善策の実施が必要です。

  • 可用性管理の目的

    可用性管理の目的

    ユーザーがITシステムを使いたいタイミングで、問題なく使えるようにしておくことを可用性といいます。

    可用性管理はITシステムの安定的な運用を目的に行い、SLA(Service Level Agreement;サービスレベル契約)で合意されたサービスレベルの維持を目標に行います。ITシステムは短時間でも停止すれば大きな損失が発生することもあるため、ITシステムの可用性を管理することは事業の安定継続に欠かせません。

    可用性管理の重要性

    現代の社会ではビジネスにおいてITシステムは不可欠といえるでしょう。ITシステムが短時間でも停止すれば業務がストップし、膨大な被害が生じる恐れもあるため、ITシステムの可用性管理の重要性が増しています。

    ただし現実問題として、コストの観点から可用性を100%にするのはほぼ不可能です。例えば高度な可用性管理を実施しても得られるメリットよりも管理コストの方が大きくなり、逆にマイナスが生じるケースもあります。損害を出さないように行う可用性管理のコストで赤字になれば、本末転倒といえます。

    可用性管理では安定性とコストのバランスを考慮し、ITシステムが停止するリスクが一番少ない運用を目指さなければなりません。

  • 可用性管理に求められる5つの要素

    可用性管理には設計の段階から考慮すべき要素があります。監視における指標にもなる重要な要素なので、覚えておきましょう。

    可用性管理に求められる要素は以下の5つです。

    ● 可用性
    ● 保守性
    ● 信頼性
    ● 対象外弾力性
    ● サービス性

    それぞれ確認していきましょう。

    要素1:可用性

    前述したように、可用性とはシステムが継続して稼働できる能力であり、SLAで合意した稼働時間に対して実際に稼働する時間を示すものです。

    可用性は以下の計算式で算出できます。

    可用性 = (サービス時間の合計–停止時間) / 合意済みのサービス時間×100(%)

    例えば1カ月に200時間の稼働をSLAで定めて、実際の稼働が198時間だった場合、可用性は99%になります。

    なお使用時間外のメンテナンスによる停止などは、可用性における停止時間には含まれません。なぜなら可用性とは合意した時間に対しての稼働時間であるため、SLAで合意した時間外の停止は問題にならないためです。

    要素2:保守性

    保守性とはシステムの停止から回復する能力を示す指標です。またシステムの機能や性能の維持のしやすさも示しています。

    保守性は以下の計算式で算出します。

    平均サービス回復時間(MTRS)= 総停止時間 / 停止回数

    平均サービス回復時間(MTRS)は、一度の停止につきどのくらいの回復時間を要するのかを示すものです。数値が小さければそれだけ保守性に優れているとみなせます。

    ただし数値が小さいからといってシステムが安定的に稼働し続けるとは限りません。停止時間(分子)が短いのではなく、停止回数(分母)が多い可能性もあるためです。システムの安定性を確認するには保守性のみならず、別の指標と合わせて確認しなければなりません。

    要素3:信頼性

    信頼性とは可用性と近い関係にあり、どのくらい中断せずにシステムを利用できるかを示す指標です。信頼性には以下の2つの指標があり、それぞれ以下の計算式を使って算出できます。

    MTBF=(使用可能時間 - 総停止時間) / 停止回数
    MTBSI= 使用可能時間 / 停止回数

    MTBFとはMean Time Between Failureの略語で、日本語では平均故障間隔といいます。停止後に回復した時点から次に停止するまでの平均時間のことです。一方、MTBSIはMean Time Between Service Incidentsの略語で、日本語では平均サービス間隔といいます。停止した時点から次の停止までの平均時間を指します。MTBSIには停止中の時間が含まれるのに対し、MTBFには停止している間の時間は含まれません。

    MTBFもMTBSIも数値、および停止回数(分母)が多いほど小さくなります。これらの数値が大きければ、それだけシステムの信頼性が高いとみなせます。

    要素4:対象外弾力性

    対障害弾力性とはトラブルが発生したときに稼働を継続する能力です。対障害弾力性が高いシステムは、システムの一部に障害が発生しても停止を回避できることが多くあります。

    ITシステムを止めないためにはトラブルが発生してから対応するのではなく、トラブルに備えることが大切です。具体的な対策方法として、壊れにくいパーツの使用、機器の多重化などが挙げられます。

    要素5:サービス性

    サービス性とはベンダーが合意した可用性、信頼性、保守性を守る能力です。サービス性は前述した要素のように時間を元にした数値では算出できません。

    サービス性はベンダーの口コミや評判、契約内容、実績などから判断できます。信頼できるベンダーを選びましょう。またベンダーによってサービスの内容は大きく異なるため注意が必要です。

  • 可用性管理とキャパシティ管理の違いとは?

    可用性管理とキャパシティ管理の大きな違いは、その目的にあります。

    繰り返しになりますが、可用性管理の目的は、ITシステムを使いたいときにいつでも使える状態にすることです。ITシステムの安定的な利用を目的に実施し、リソース管理においてもコスト最適化ではなく、安定的な利用を目指します。

    一方、キャパシティ管理とはSLAで設定された利用者との合意の実現を目指し、ITリソースのコスト、取得時期、展開などの最適化のために計画、調達、配備を行うことです。つまりITシステムに必要なリソースの予測を行い、最適なコストで提供できるよう整えることが目的です。

    同じITシステムであってもどのくらいのリソースを必要とするのかは、状況や目的などによって変わります。例えばシステムのアップデートや利用者の増加に合わせて、CPUやメモリーの追加が求められるケースもあるでしょう。ただし将来的に追加するからといって、最初から多くのリソースを注ぐと、使わなかった場合には無駄なコストとなります。

    不足が発生すれば業務に支障が生じるものの、リソースを用意し過ぎることでマイナスが生まれる恐れもあるため、バランスが大切です。無駄を発生させないためにはリソースの必要性を監視・予測し、随時対応することが求められます。

  • 可用性を高めるために大切なこと

    可用性を高めるために大切なこと

    可用性を高めるために大切なこととして、以下の4つが挙げられます。

    リスクを分析し管理する
    リージョンやゾーンを複数利用する
    ハードウェアを冗長化する
    単一障害点を作らないようなシステムを作る

    それぞれ確認していきましょう。

    リスクを分析し管理する

    可用性を高めるためにはサーバーやネットワーク機器ごとにリスクを分析し、対策を行い管理します。以下は、3つに分類したリスクと具体的な内容です。

    ● 資産価値:サービス中断時の事業損失
    ● 脅威:単一障害点における障害、キャパシティ不足、陳腐化した旧技術の不具合、未成熟な新技術に潜んでいる不具合、セキュリティー事故など
    ● 惰弱性:バックアップが未完了、情報セキュリティー上の欠陥など

    リージョンやゾーンを複数利用する

    ITシステムを運用するに当たり、可用性を高めるためにはリージョンとゾーンが大切です。それぞれどのような意味なのか理解しておく必要があります。

    リージョン:データセンターが設置されている独立したエリアを指す言葉
    ゾーン:リージョンをさらに分割したエリアを指す言葉

    システム本体のサーバーを冗長化していてもデータセンターが停止した場合には、システム全体の機能が停止する恐れがあります。なお、冗長化とは同じ役割や機能を持つ要素を複数用意しておき、異常が起きたときの代替として待機させておくことです。

    システムを構築する際に複数のリージョンやゾーンを組み合わせることで、システム全体の冗長化につなげることが可能です。複数を組み合わせることで致命的なトラブルの発生を防げます。

    ハードウェアを冗長化する

    ハードウェアの冗長化とはシステム構成の予備の配置を行い、多重化することです。予備のサーバーを組み、システムの構築をしておくことで、メイン系統で障害が発生したとしても予備系統での稼働を継続できます。

    冗長化の方法として以下の2つが挙げられます。

    ● アクティブ・スタンバイ構成:2つ以上の同一のシステムを用意し、1つを稼働系、それ以外を待機系として運用する仕組み。データ同期や切り替えに時間を要するケースは少なくないものの、運用コストを安価に抑えられる。

    ● アクティブ・アクティブ構成:同一のシステムを2つ以上用意し、それらを常に運用する仕組み。平常時はシステム処理で発生する負荷を複数のシステムに分散できるためトラブルの発生を防ぐ効果がある。

    アクティブ・スタンバイ構成とアクティブ・アクティブ構成にはそれぞれメリットとデメリットがあるため、自社のニーズや状況などをよく確認して選んでください。

    単一障害点を作らないようなシステムを作る

    ITシステムの安定稼働には単一障害点を作らないようなシステムにすることが大切です。なお単一障害点とはシステムを構成している要素の中で1カ所が停止するとシステム全体がストップするポイントのことです。

    単一障害点となり得る要素は多く、それら全てに冗長化を行うにはコストがかかり過ぎます。従ってどの要素が単一障害点となり得るのかを把握し、どの程度まで単一障害点を減らすのかをコストとのバランスを考慮して検討することが大切です。

  • ITILを活用して円滑な可用性管理を目指す

    前述の通り、可用性管理とはSLAで合意されたITサービスを確実に行うための設計から改善までのプロセスです。これらを実施することでサービスの可用性、信頼性、保守性を実現できます。

    ITILでは可用性管理についてITサービス、またはその他の構成アイテムが必要とされたとき、合意済みの機能を実行する能力と定義されています。なおITILとはITサービスマネジメントの成功事例をまとめたガイドラインです。

    またITILではコスト削減が重要視されているわけではありません。ITILはコストの最適化を目指すものであり、例えばITILの導入でサービスデスクやCMDBの仕組みなどでコストが一時的にアップすることもあります。

    ITILを活用することで、自分が属している組織と成功している組織を比較し、評価を行うと能力のギャップを埋められます。可用性管理に悩む企業はITILを参考にするのがおすすめです。

  • 可用性管理の課題

    可用性管理はITシステムを利用している企業にとって不可欠であるものの、課題があります。

    その1つに、属人化が挙げられます。属人化とは特定のスキルや知見がある人に対応を依存してしまい、その人しか対応できなくなることです。対応できる人が不在のときはトラブル対応がストップしたり、また異動や退職でその人がいなくなった場合は対応できなくなったりします。ITシステムのトラブルは、早急に対応できれば問題を最小限に抑えられるものがほとんどです。しかし復旧が遅れればそれだけ収拾がつきにくくなります。加えて属人化によって特定の人だけ業務の負担が重くなることも懸念されます。

    属人化以外の可用性管理における別の課題は、担当者が正当な評価を受けにくいことです。誰かが可用性管理を行っているからこそ、ITシステムが安定的に稼働しています。しかし周囲からは安定稼働しているのが当然のように考えられることも多く、運用管理業務は適切な評価を得られないケースも珍しくありません。管理担当者のモチベーションが上がらなかったり、管理担当の募集を出しても人材が集まらなかったりすることも多いです。

    これらの課題から、社内の人材だけでは可用性管理が難しい場合は、業務サポートツールの活用がおすすめです。ツールを活用することで少ないコスト、かつ現在の人的リソースのままで課題を解決できることも多くあります。

    適切なツールの選択と活用

    可用性管理を少ない負担で行うには、ツールの活用がおすすめです。ツールにはさまざまな種類があるため、各ツールの特徴や機能、活用方法などを見極める必要があります。

    可用性管理にツールを使いたい場合は統合運用管理を検討してもよいでしょう。統合運用管理とは社内にあるITシステム(社内システム、ネットワーク、サーバーなど)を一括で管理することをいいます。

    従業員が社内にあるシステムを把握し、管理するのは容易ではなく、見落としが生じることもあります。そこで、ツールを活用するとITシステムを一元管理できるのみならず、管理業務の一部を自動化することも可能です。従業員の労働時間削減につながったり、担当者が別の業務やクリエイティブな仕事に多くの時間を充てられるようになったりします。

  • まとめ

    可用性管理は自社のITシステムを問題なく使い続けるために不可欠です。この管理を怠ると、業務がストップし、膨大な損害が発生することもあります。

    ただし可用性管理はコストとのバランスが大切で、必要以上に可用性管理にコストを注ぐとマイナスが生じるケースもあるので注意してください。コストとリソースのバランスをよく考えて行うことが大切です。

    可用性管理は手間や時間を要するものであり、従業員の負担を軽減するためにもツールの活用がおすすめです。例えばSMART STAGEは自社における総合的なIT管理に役立ちます。既存運用をシステム化できる高い柔軟性があり、サポート体制にも優れているためITに関する知識がない企業も無理なく導入可能です。ぜひお問い合わせください。