1. IT 運用監視体系の概要#
IT 運用には、インストール・デプロイメント、設定管理、運用監視など、さまざまな側面が含まれます。言葉には「監視なしには運用なし」というものがあり、IT 運用において監視は重要な要素です。本文では、特に運用監視体系について詳しく説明します。IT 運用監視体系は、パフォーマンス(Metrics)、トレース(Traces)、ログ(Logs)の 3 つのオブジェクトの次元で分類することができます。図 1、図 2、図 3、図 4 を参照してください:
図 1:企業の IT 運用の 3 つの次元
出典:愛数学院
図 2:3 つの次元の表現形式
出典:愛数学院
図 3:3 つの次元で解決される異なる問題
出典:愛数学院
図 4:3 つの次元を活用して問題を解決する方法
(出典:愛数学院)
- Metrics は、最初期の運用の関心事であり、システムに問題が発生しているかどうかに主眼を置いています。これは競争が激しい市場です。
- Traces は急速に発展しており、システムの問題のトレースと原因に焦点を当てています。主に APM(Application Performance Management)ツールを使用し、重要なビジネスシステムを監視、警告、最適化して、ビジネスの信頼性と安定性を向上させ、顧客に優れたサービスを提供し、競争力を高めます。
- Logs は比較的多くのセキュリティ、運用、および運営情報を取得できます。問題の原因に焦点を当てていますので、ハードルが高いですが、比較的まだ開拓されていない市場です。
2. Metrics#
Metrics について話すとき、Zabbixを挙げることができません。これはオープンソースの運用ツールであり、分散監視をサポートし、多くのインターネット企業に使用されています。Zabbix の監視原理は、監視対象と通信を確立し、データを収集することです。通信方法には、エージェント、SSH/telnet、SNMP(ネットワーク機器に使用される)、IPMI(電源、ファンなどに使用される)、JMX(JVM 仮想マシンに使用される)などがあります。Zabbix の欠点は、データベースストレージを使用しているため、大量の頻繁なログの保存や読み取りにはあまり適していないことです(主に Metrics に重点を置いています)。また、Zabbix はコンテナやマイクロサービスの監視能力が比較的弱いです。
Zabbix 以外にも、Nagios、Cacti、Prometheusなどが一般的です。クラウドネイティブの台頭とともに、クラウドネイティブ監視に特化した Prometheus が人気を集めています。また、Alibaba Cloud もARMS Prometheusを適時にリリースし、オープンソースの Prometheus エコシステムと完全に統合し、さまざまなコンポーネントの監視をサポートし、プリセットの監視ダッシュボードを提供し、包括的なホストされた Prometheus サービスを提供しています。もちろん、Prometheus はまだ Metrics のレベルであり、アラート機能は完璧とは言えず、分析機能もありません。
3. Traces#
企業のビジネスの発展に伴い、規模が拡大し、ビジネスが増えるにつれて、分散化が進んでいます。マイクロサービス、メッセージング、分散データベース、分散オブジェクトストレージ、分散キャッシュ、クロスドメイン呼び出しなど、これらのコンポーネントは複雑な分散ネットワークを構成し、1 つのビジネスリクエストには数個または数十個のサービスが協調して処理する可能性があります。このような場合、サービスのトレースを動的に表示し、サービスのボトルネックを分析し、トラブルのあるトレースを迅速に特定するための運用ツールが必要です。そのために、APM ツールが登場しました。APM ツールは、フロントエンド(モバイルアプリ、ブラウザ)の監視だけでなく、アプリケーションのバックエンドの監視も行うことができます。
APM のデータ取得は通常、プローブ埋め込み(エージェント方式)によって行われます。この方法は、非常に完全で詳細な監視データの収集を提供し、コードレベルの問題の特定をサポートします。ただし、この方法はアプリケーションに侵入的であり、埋め込みコードが異常な場合、アプリケーションのパフォーマンスと安定性に影響を与える可能性があります。この方法は、コード侵入型とバイトコード強化型の 2 つに細分化できます。前者はZipkin、cat などの製品を代表としています。後者は PinPoint、skywalking などの製品を代表としています。製品の比較は次のとおりです:
- 《调用链选型之 Zipkin,Pinpoint,SkyWalking,CAT》
- 《全链路追踪技术选型:pinpoint vs skywalking》
- 《监控系统比较 Skywalking Pinpoint Cat zipkin》
近年、国内の SaaS モデルで Traces 監視を提供するベンダーも台頭しています。これらのベンダーもプローブ埋め込みの方法でデータを取得しますが、ビジネスモデルは変化しています。現在、国内でよく知られているベンダーには、聴云、クラウドワイズ、OneAPMなどがあります。
また、プローブ埋め込みを使用せずにデータを取得する APM ツールも徐々に登場しています。国内の代表的な製品にはRStoneがあります。データの取得方法は、旁路デプロイメントを使用し、ネットワークトポロジーやシステムに変更を加えず、ソフトウェアのインストールも必要ありません。キーノードにのみ旁路デプロイメントデバイスを配置する必要があります。図 5 を参照してください:
図 5:RStone の監視方法
(出典:RStone 公式ウェブサイト)
4. Logs#
従来の運用監視は主に Metrics に焦点を当てていましたが、近年では Traces にも注目が集まっています。ただし、上記の 2 つには以下のような問題がまだ存在しています:
- 監視の断片化 - IT インフラの監視とアプリケーション層の監視が分かれているか、異なるチームが監視している
- 統一の欠如 - 監視ツールは監視対象によって異なる
- アラートの過剰 - アラートの収束や障害の回復などのスマートな運用手段が不足している
Logs を使用することで、これらの問題を効果的に解決することができます。現在、市場で一般的なツールには、Splunk、ELK、ログイー、AnyRobot などがあります。
Splunk は、ログ監視製品の中でも優れた製品であり、会社のログファイルを分析することを主眼に置いています。Splunk を使用すると、1 つの集中アプリケーションを介してさまざまな統計やクエリを迅速に実行できます。さらに、さまざまなレポートを生成することもでき、データ全体をパフォーマンス評価するのに便利です。データ量だけでなく、クエリの速度、クエリの利便性、統計レポートなど、さまざまな機能があります。現在、企業向けの SaaS 企業として、検索、監視、分析、解釈のための大量のマシン生成データを提供するソフトウェアソリューションを提供しています。IT 企業だけでなく、DevOps ソリューション、通信、エネルギー、金融、政府など、さまざまな分野で使用されています。Splunk の優れた機能は、ARK の有名な木材姉妹が 5500 万ドルを投資し、ARK の 4 つの主要 ETF に Splunk を追加したことでさらに引き立てられました。
ただし、Splunk は無敵ではありません。Splunk 製品の使用には複数のコンポーネントとツールが関与し、各コンポーネントには料金が発生し、コストが高くなります。成熟した商用オープンソースは、Splunk の市場を徐々に侵食しており、その中でも最も有名なのが ELK です。
ELK は、ElasticSearch、Logstash、Kibana の頭文字であり、検索、データ入力、可視化の機能を提供し、Elastic のアプリケーションスタックを構成しています。これら 3 つは個別のオープンソースプロジェクトですが、実際には Elastic の同じ屋根の下で、すべてのコンポーネントに対して非常に結束力のあるロードマップを提供しています。スコアリングメカニズムによる検索結果の評価は、Splunk よりも優れています。オープンソースであるため、多くの開発力のサポートを受けており、開発者にとっては Splunk よりも参加感が高いです。
国内市場では、同様に優れたログ監視製品が 2 つ存在します - ログイーと AnyRobot。どちらもログを基にしたビッグデータ運用分析製品であり、以下のような違いがあります:
- ログイーは Splunk の忠実な模倣者であり、常に模倣していますが、超えることはありません。AnyRobot は ELK をベースに開発され、ELK の利点を最大限に活用しています。
- ログイーの製品形態にはソフトウェア版と SaaS 版がありますが、AnyRobot にはソフトウェア版と SaaS 版のほか、オールインワン版もあります。
- ログイーの課金モデルはデータのフローに基づいていますが、AnyRobot の課金はユーザーが実際に分析するデータ量に消費される計算ユニットに基づいています。
- ログイーには「データファクトリー」というデータフロー管理製品がありますが、AnyRobot にはこのような製品はありません。
- ログイーは金融業界での事例が多いですが、AnyRobot は政府、教育、医療業界での事例が多いです。
- ログイーは機密性の高い業界での販売に制約がありますが、AnyRobot は機密性の高い業界での販売が可能です。
- ログイーは Splunk に対抗するための置き換え戦略をとっており、Splunk と似たような製品を開発して Splunk を代替しています。AnyRobot は収容戦略をとっており、Splunk を置き換えることはありませんが、Splunk を収容することができます。
5. 結論#
- Metrics の監視は、現在の多くの運用で行われている主要な作業です。Zabbix などのツールは引き続き使用されます。
- Traces および Logs に基づく監視運用がますます重要視され、従来の運用監視は AI 運用(AIOps)に向けて進化しています。
- 運用ツールはソフトウェア版から SaaS 版に移行しています。
- 国内市場では、国産化が進んでおり、優れたベンダーや製品が次々と登場しています。