宽客秀

宽客秀

Quant.Show的Web3站点,Archives from quant.show

RFMとK-meansに基づくユーザーの価値評価分析

1. 概要#

金融業界、小売業界、通信業界などでは、顧客を分類し、異なるタグを付けて個別化されたマーケティング活動を行うために、顧客を分割する必要があります。RFM モデルは、顧客の実際の取引や消費、購入、チャージなどの一連の行動データを基に、顧客セグメントを分割するための簡単で実用的なモデルです。RFM モデルは、Recency(最新の取引日)、Frequency(最近の一定期間内の取引回数)、Monetary(最近の一定期間内の取引金額)の 3 つの指標で構成されています。これらの指標は、顧客の活動度、購買力、忠誠度などの情報をほぼ代表しています。運営者の目標は、各顧客の RFM 指標を計算し、顧客セグメントを異なるカテゴリに分けることで、分析と精密なマーケティングを行うことです。図 1 を参照してください。

img2-5.jpg

図 1 顧客の分類(日本語の説明がわかりやすい図を採用しました)

R、F、M の各方向を高、低の 2 つの方向に定義することができます。R、F、M の中央値を見つけ、R が中央値よりも高い場合は高、低い場合は低とします。これにより、2_2_2=8 つの顧客セグメントが得られ、高価値顧客、重点開発顧客、離反顧客などのグループを分析し、ターゲットとなるマーケティング活動を行うことができます。マーケティング戦略の策定は、製品内の各種類のユーザーの割合と、実際のビジネスロジックを考慮する必要があります。表 1 を参照してください。

策略.png

表 1 異なる顧客セグメントのマーケティング戦略の例

2. 実証分析#

2.1 データの前処理#

csv ファイル(ある電子商取引の特定期間の実際の運営データ)から、ユーザー ID、取引日、取引金額などのデータを取得します。データの概要は以下の通りです。

  • 特徴変数の数:4(USERID、ORDERDATE、ORDERID、AMOUNTINFO)
  • レコード数:4442
  • NA 値の有無:なし
  • (AMOUNTINFO)最大値:9188
  • (AMOUNTINFO)最小値:0.01

元のデータに対して欠損値処理と異常値処理を行います。今回のデータには欠損値がないため、処理は必要ありません(必要に応じて削除または補完処理を行います)。取引金額が 0.01 の場合は、運営テストデータと確認されたため、削除処理を行います。取引日(ORDERDATE)を日付に変換して、後続の期間計算に使用できるようにします。

2.2 RFM スコアの計算#

  1. 最新の時点を指定する
    データにおいて、最新の取引日は 2018 年 12 月 5 日です。したがって、この日を最新の時点とし、すべての時間間隔の計算はこの日を基準に行います。

  2. R、F、M の値を計算する
    ユーザー ID(USERID)を主キーとして、取引日(ORDERDATE)の最大値、取引日(ORDERDATE)のカウント、取引金額(AMOUNTINFO)の合計をそれぞれ計算し、1 で得られた最新の時点を組み合わせて R、F、M の値を得ます。
    得られた R、F、M の値をパーセンタイル法を使用して区間に分割し、通常 5 つのセグメントに分けます。また、ラベルを使用して区間を指定します。R については、値が大きいほど最新の時点から遠く離れていることを意味し、その区間ラベルは小さくなります。F、M は R とは逆です。
    計算後の RFM データの分布は、図 2 と図 3 を参照してください。

方法前 - 散点図.png

図 2 RFM - 散布図の分布

方法前.png

図 3 RFM-3D 図の分布

図 2 と図 3 からわかるように、この顧客グループは初期の顧客が多く、取引頻度は 50 以下に集中し、取引金額は一般的には高くありません。

2.3 重みの計算#

一般的に、重みの計算には階層分析法(AHP)が使用されます。これは、個人の信用リスク評価モデルの開発によく使用される金融会社や小売業界の貸借評価にも適用できます。AHP 法を使用して、まず各要素の相対的な重要性をペア比較によって決定し、次に相対的な重要性を解決して指標の重みを計算します。指標の重みは一貫性の検査を経る必要があります。つまり、一貫性比率指標 CR が小さいほど良い(一般的には CR<0.1 が要求されます)。専門家の評価行列は表 2 を参照してください。

表 2.png

表 2 専門家の評価行列

最終的な重みは、[W_R 、W_F 、W_M] = [ 0.30、0.54、0.16 ](詳細な計算プロセスは省略します)。このケースでは、指標が 3 つしかないため、数が少なく、混乱しにくいため、単純に設定することもできます。

2.4 RFM 区間ラベル + 分類ルールに基づく顧客分類#

最初の分類方法は、RFM 区間ラベル + 分類ルールの方法を使用する方法(宋天龍、2017)。表 1 を参照してください。R を例にとると、「RS 分布」は RS の平均値を指し、「高」は平均値よりも高いことを意味します。F、M も同様です。その分類結果は図 4 を参照してください。

方法 1.png

図 4 方法 1 に基づく分類結果

図 4 からわかるように、この顧客グループは、重要なリテンション顧客と一般的なリテンション顧客で主に構成されており、一般的な価値顧客と一般的な維持顧客、重要な価値顧客と重要な開発顧客がわずかに存在し、重要な価値顧客と重要な開発顧客がほとんどいません。

2.5 RFM 実際の値 + K-means に基づく顧客分類#

2 番目の方法は、RFM の実際の値を直接使用し、K-means クラスタリング手法を組み合わせて分類する方法で、RFM 区間ラベルは使用しません。この方法を使用する際には、次の点に注意する必要があります。

  • RFM に離散値が存在するか、均等に分布しているか
  • RFM は異なる尺度を持っているため、標準化処理が必要
  • K-means クラスタリング手法はいくつのクラスに分類するか

離散値と標準化処理は通常の方法で処理することができます。離散値の処理には MAD 法を使用することもできますし、単純に対数を取ることもできます。標準化処理には z スコア法を使用します。このケースでは、標準化処理のみを行いました。分類数は elbow method(詳細はhttps://en.wikipedia.org/wi/Determining_the_number_of_clusters_in_a_data_setを参照)を使用して推定し、図 5 のように、曲線が緩やかに下降する点を取ります。つまり、k=4 です。

碎石检验.png

図 5 elbow method

分類数 = 4 で K-means クラスタリング分析を行います。この時点での分類カテゴリは固定されていないため、顧客を単純に k クラスの星のランク付け顧客に分類することができます。分類結果は図 6 を参照してください。

方法 2 最终排名.png

図 6 方法 2 に基づく分類結果

この時点での顧客分類は、単純に顧客を分類するだけであり、異なる分類の顧客間の違いはまだ表れていません。この時点で各分類の重心を取り、そのランキングを表示することで、ランキングの分類結果を得ることができます。ランキングの分類結果は図 7 を参照してください。

方法 23d.png

図 7 方法 2 に基づく分類 + ランキング結果

各ランキングの顧客カテゴリの RFM 分布を確認するために、確率密度グラフを使用することができます(watermelon12138、2019)。3 つ星会員を例に取ると、図 8 を参照してください。

概率密度图.png

図 8 3 つ星会員の確率密度グラフ

図 8 からわかるように、このカテゴリのユーザーは 800 日前後にアクセスし、取引頻度は 20 に集中し、取引金額は広く分布しており、15000 から 25000 までさまざまです。

2.6 2 つの分類方法の比較#

2 つの異なる分類結果から見ると、基本的には 4 つのカテゴリに分けられますが、4 つのカテゴリの分け方はそれぞれ異なります。前者は分類ルールに基づいて運営者の期待に応じて分類するのが容易ですが、後者は機械学習の自動学習能力を活用し、より多くのタスクを K-means クラスタリングに任せることを重視しています。前者は顧客の価値スコアも計算しますが、顧客の分類は顧客の価値スコアに依存しません。顧客の価値スコアは参考のみです。後者は K-means を使用してクラスタリングを行いますが、顧客のカテゴリランキングはできません。顧客のカテゴリランキングは主に顧客の価値スコアと RFM の重みに依存します。

この記事のソースコードは、JoinQuant での私のコード共有を参照してください:

https://www.joinquant.com/view/community/detail/dee9aa758086d5a37923300e6b288456

参考文献:

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。