機械学習に基づく選択株戦略の実証研究

この記事は、機械学習に基づく株式選択の定量的研究です。JoinQuant プラットフォームを通じて、2014 年 1 月 1 日から 2018 年 7 月 31 日までの取引日の中証全指および沪深 300、中証 500 指数のサンプル株の横断データをテストセットサンプルとして取得しました。また、その日の取引停止または寄付価格の上下限に達したサンプル株は対象外とします。中証全指および沪深 300、中証 500 指数のサンプル株をデータサンプルとして選択した理由は、中国 A 株市場の大中小市値企業の株価パフォーマンスを包括的に反映できるからです。

1.1 ファクター選択とモデル構築#

1.1.1 ファクター選択#

異なるファクターの組み合わせが株式の超過収益に異なる影響を与えるため、定量的投資戦略、特に多因子モデルの成功の鍵はファクターの選択にあります。株式収益を効果的に説明するためには、候補ファクターの選択は十分な次元を考慮し、比較的合理的な経済的意味を持つ必要があります。また、ファクターの取得コストも考慮する必要があります。定量的ファクターの研究は多くあり、その中で有名なのは WorldQuant が発表した『101 Formulaic Alphas』です。この記事では、ファクターの相関性などのテストと総合的な考慮を経て、評価、資本構造、利益、成長の 4 つの側面から考慮し、表 1 に示すファクターを候補ファクターとして選択しました。

表 1 ファクターとその説明#

No	大類ファクター	ファクター名	ファクター説明
1	評価	EP	利益収益率、PER（TTM）の逆数
2	評価	BP	帳簿価値比、PER の逆数
3	評価	PS	売上高比率
4	評価	DP	配当利回り、支払配当を総時価総額で割ったもの
5	評価	RD	市場研究率、開発支出を総時価総額で割ったもの
6	評価	CFP	現金収益率、市場現金比率の逆数
7	資本構造	log_NC	対数純資産
8	資本構造	LEV	財務レバレッジ、資産 / 負債
9	資本構造	CMV	対数流通時価総額
10	資本構造	FACR	固定資産比率、固定資産 / 総資産
11	利益	NI_p	純利益率、(純利益 / 営業総収入) の絶対値
12	利益	NI_n	純利益率、((負数) 純利益 / 営業総収入) の絶対値
13	利益	GPM	売上総利益率
14	利益	ROE	純資産利益率
15	利益	ROA	資産収益率
16	利益	OPTP	主な事業の割合
17	成長	PEG	PER/(純利益成長率 * 100)
18	成長	g	営業収入成長率（前年比）
19	成長	G_p	純利益成長率（前年比）

1.1.2 モデル構築#

ある時点において、株式の時価総額は複数の要因で説明できます。多因子モデルの基本的な考え方に基づき、横断的に時価総額をサンプルラベルとして、表 1 に示すファクターに従ってファクターエクスポージャーを計算し、サンプルの原始的特徴とします。

表 1 の複数のファクターに対して回帰を行い、得られた残差値が小さいほど、株式の時価総額が理論値から下方に偏離していることを示し、つまりその株式が将来的に上昇する可能性が高いことを意味します。モデルの構築は以下のようになります：

1.2 データ前処理#

この記事では、JoinQuant プラットフォームを通じて必要な時価総額およびファクターデータを取得します。

モデルの構築と分析を行う前に、データの質を向上させるためにデータの前処理を行う必要があります。データ前処理にはさまざまな方法があり、データクリーニング、データ統合、データ変換、データ削減などが含まれます。この記事では、データの主な前処理を以下のように行います。

1.2.1 欠損値処理#

初期データに欠損がある場合、この記事では統一して 0 で埋めます。

1.2.2 外れ値処理#

外れ値が大きすぎたり小さすぎたりすると、分析結果に影響を与える可能性があるため、特に回帰を行う際にはファクターの外れ値を処理する必要があります。処理方法は、ファクター値の外れ値を上下限に調整する（ウィンザー処理）ことで、上下限は外れ値を判断する基準から得られ、外れ値の影響を減少させます。外れ値の判断基準には 3 つの方法があり、それぞれ MAD、3σ、パーセンタイル法です。MAD 基準の具体的な方法は以下の通りです：

すべてのファクターの中央値を見つけます。
各ファクターの中央値との絶対偏差値を得ます。
絶対偏差値の中央値 MAD を得ます。
パラメータ n を決定し、以下の式に従ってファクター値を調整します。

この記事では、MAD（n=5）基準を用いてファクターの外れ値処理を統一して行います。外れ値処理前後の比較として、ファクター g の 2018 年 7 月 11 日の横断データを例に、図 1 を参照します。

因子外れ値処理

図 1 因子 g の外れ値処理前後の比較（出典：JoinQuant）

1.2.3 標準化処理#

異なるファクターが記述する対象の単位が異なるため、異なるファクターの数値差が大きくなる可能性があります。例えば、標準化されていない時価総額をファクターエクスポージャーとして使用する場合、会社 A の時価総額が会社 B の時価総額の 100 倍であれば、時価総額ファクターの収益率が A の収益率に対する影響は B の収益率に対する影響の 100 倍であると言えるのでしょうか？明らかにそうではありません。したがって、ファクターを使用して戦略を構築する前に、ファクターを標準化処理する必要があります。標準化の方法は多くあり、この記事では z-score の方法を採用し、図 2 を参照して、ファクター値の平均を 0 に、標準偏差を 1 に調整します。処理後のデータは有次元から無次元に変換され、データがより集中し、異なる指標が比較や回帰できるようになります。

z-score 方法説明

図 2 z-score 方法説明（出典：量化投資トレーニングキャンプ公式アカウント）

ファクター log_NC の 2018 年 7 月 11 日の横断データを例に、標準化処理の前後の比較は図 12 を参照します。

1.2.4 ニュートラル処理#

ファクターを使用して株式を選択する際、他のファクターの影響により、選ばれた株式が望ましくない偏りを持つことがあります。例えば、市場価格比率は時価総額と高い相関関係があるため、時価総額のニュートラル化を行わない場合、選択結果が集中することになります。一方で、成長産業と衰退産業の PER にはおおよそ一定の特徴があり、つまり業界が評価ファクターに影響を与えるため、得られた結果には余分な偏りが生じます。このような異なる業界や時価総額の違いによる誤差問題を解決するために、特定のファクターを使用する際に他の要因の影響を排除し、選ばれた株式をより分散させるために、ニュートラル処理を行う必要があります。

標準化処理

図 3 ファクター log_NC の標準化処理前後の比較（出典：JoinQuant）

ファクターに関して、市場リスク（例えば、強気市場と弱気市場）と業界リスク（同一業界の企業が受ける影響が類似）をニュートラル化の主な考慮要素とし、これら二つの処理方法には二つの方法があります：

市場ファクターと業界ファクターを同時にモデルに組み込む。
業界ファクターのみを組み込み、市場ファクターを業界ファクターに含める。

第一の方法と第二の方法の違いは、第一の方法では業界ファクターの収益率が市場に対する超過収益率として計算され、第二の方法では業界の絶対収益率が計算されます。スタイルファクターの有効性を検証する際、これら二つの方法には違いはありません；回帰においては、前者は切片項を持つ回帰であり、後者は原点を通る回帰です。この記事では第二の方法を採用し、モデルを以下のように調整します：

その会社がその業界に属する場合、その業界のダミー変数の値を 1 に設定し、そうでない場合は 0 に設定します。この記事では、会社の所属業界を割合で分割することはせず、会社は特定の業界にのみ属することとします。この記事の業界分類は JoinQuant の業界 1 級分類を採用し、表 2 を参照します。

表 2 業界分類一覧#

業界コード	業界名	開始日
HY001	エネルギー	1999/12/30
HY002	材料	1999/12/30
HY003	工業	1999/12/30
HY004	選択消費	1999/12/30
HY005	日常消費	1999/12/30
HY006	医療保健	1999/12/30
HY007	金融	1999/12/30
HY008	情報技術	1999/12/30
HY009	電気通信サービス	1999/12/30
HY010	公共事業	1999/12/30
HY011	不動産	1999/12/30

2.1 バックテストパラメータ設定#

この記事では、歴史的バックテストの方法で実証分析を行います。バックテストパラメータの設定が異なると、得られるテスト結果に大きな差が生じます。客観的にバックテストパラメータを設定することは、戦略取引の効果の真偽や戦略の最終的な選択に関わります。この記事のバックテストパラメータ設定および全体設定は以下の通りです：

（1）投資金額

仮定投資金額は：100 万。

（2）バックテスト期間

指定がない場合、デフォルトのバックテスト期間は：2014 年 1 月 1 日 —2018 年 7 月 31 日

（3）手数料および印紙税

バックテスト結果をより実際の取引コストに近づけるために、実証分析において手数料および印紙税の比率を設定します。

過去 10 年間の印紙税の主な二回の変更は以下の通りです：

2008 年 4 月 24 日から、3‰から 1‰に調整。
2008 年 9 月 19 日から、両側徴収から片側徴収に変更、税率は 1‰のまま。売却者が 1‰の税率で株式取引印紙税を支払い、受け手には課税されない。

手数料については、証券会社や顧客自身の違いにより、手数料比率はそれぞれ異なります。この記事では別途設定を行いました。

（4）スリッページ

スリッページとは、注文価格と実際の成立価格の差を指します。スリッページが最終結果に与える影響は小さいため、この記事ではスリッページを 0 に設定します。

（5）ポジション管理

毎回の購入時に残っている資金に基づき、購入株数を平均資金で全額購入します。

（6）実行可能な株式プール

特に指定がない場合、この記事の実行可能な株式プールはデフォルトで中証全指とします。
実際の状況では、その日の取引停止の株式は売買操作ができないため、全体のバックテスト前に当日取引停止の株式を除外します。
この記事では、ストップ安の状態では戦略が購入を行わず、ストップ高の状態では戦略が売却を行いません。

（7）比較基準

実行可能な株式プールに対して、中証全指の毎日の価格を戦略の良し悪しを判断し、一連のリスク値計算の基準とします。

（8）テストセット抽出

取引日の因子特徴値はサンプルの原始的特徴であり、その日の時価総額の対数はサンプルのラベルです。

（9）トレーニングセット（検証セット）合成

T 日を例に、21 取引日ごとに間隔を置き、特に指定がない場合、デフォルトで T-63 から T の特徴とラベルをトレーニングセット（検証セットを含む）として使用し、3 折交差検証の方法を使用します。

（10）機械学習アルゴリズムパラメータ設定

特に指定がない場合、各機械学習アルゴリズムのパラメータ設定は表 3 を参照し、固定パラメータ方式を使用します。

表 3 各機械学習アルゴリズムパラメータ設定#

人工知能アルゴリズム	パラメータ設定
線形回帰	無パラメータ
リッジ回帰	alpha:100
SVR	C:100,gamma:1
ランダムフォレスト	n_estimators:500

（11）その他

バックテストは市場価格注文で行い、買えないまたは売れない現象は存在しないと仮定します。
財務報告および時価総額データはバックテスト日の前日のデータを使用し、未来の関数を避けます。
この記事は株式選択戦略の研究に焦点を当てているため、ストップロスや利益確定戦略、タイミング戦略を補助として使用せず、株式選択戦略以外のパラメータが一貫していることを保証します。

2.2 モデルおよびファクターの有効性実証#

戦略を深く研究する前に、まず戦略の有効性を研究および実証し、その後の研究が正しい前提の下で行われることを保証します。戦略の有効性実証方法は以下の通りです：

人工知能の線形回帰アルゴリズムに基づき、モデル内のファクター特徴値を時価総額（対数を取る）ラベルに対して線形回帰を行い、実際の値と予測値の差を新しいファクター特徴値とします。
株式を小さい順に並べ替えます。
株式を 10 グループに等分し、それぞれ 10 日ごとおよび 30 日ごとにリバランスを行います。

上記の方法に基づき、バックテスト条件は表 4 を参照し、グループバックテストを行います。グループバックテストの結果はそれぞれ表 5、図 4、図 5 を参照します。

表 4 バックテスト条件#

株式プール	リバランス周期	アルゴリズム	保有数	ファクター組み合わせ
沪深300 中証500 中証全指	10日， 30日	線形回帰	10%（グループ）	全ファクター

表 5 グループバックテスト収益率およびランキング#

図 4 異なるグループの超過収益率（中証全指、リバランス周期：10 日）

図 5 異なるグループのバックテスト結果（中証全指、リバランス周期：10 日）

表 5、図 4、図 5 からわかることは：

仮定されたモデルに基づき、沪深 300 では明確な単調の戦略収益率を得ることができず、中証全指では相対的に明確な単調の戦略収益率を得ることができます。中証 500 は沪深 300 と中証全指の中間に位置しています。このことは、この戦略が沪深 300 への投資には適していないが、中証全指または中証 500 への投資には適していることを示しています。
中証全指は相対的に明確な単調の戦略収益率を得るだけでなく、相対的に単調のシャープレシオと情報比率も得ることができます。
中証全指は単調の最大バックテストを得ることができず、このモデルはリスク管理において効果的なメカニズムを持っていないことを示しています。

中証全指を株式プールとして、30 日ごとにリバランスを行い、リッジ回帰、SVR、およびランダムフォレストアルゴリズムを使用してグループバックテストを行います。バックテスト条件は表 6 を参照し、バックテスト結果は表 7 を参照します。

表 6 バックテスト条件#

株式プール	リバランス周期	アルゴリズム	保有数	ファクター組み合わせ
中証全指	30日	リッジ回帰， SVR，ランダムフォレスト	10%（グループ）	全ファクター

表 7 グループバックテストランキング#

グループ	リッジ回帰	ランキング	SVR	ランキング	ランダムフォレスト	ランキング
1	111.91%	2	159.14%	1	96.34%	1
2	115.73%	1	96.40%	2	62.81%	3
3	84.34%	3	79.04%	3	57.74%	5
4	69.23%	4	59.84%	4	47.91%	8
5	49.12%	5	49.03%	5	54.28%	7
6	34.19%	8	22.80%	8	56.70%	6
7	31.04%	9	30.92%	6	69.18%	2
8	35.06%	7	17.04%	10	64.71%	4
9	15.25%	10	30.65%	7	24.80%	9
10	37.7%	6	17.44%	9	19.82%	10

この記事では、30 日をリバランス周期として選択しました。これは、まず、この記事で選択した一部の取引データが実質的に月次データであり、周期が日またはそれ以下の場合、この調整は意味を持たないからです。次に、財務データの選択において、四半期を選択しており、前述の理論に従えば周期を四半期に調整すべきですが、四半期を周期とすると取引コストが増加し、多くの投資機会を逃す可能性があり、取引の収益率にも影響を与える可能性があります。また、財務データには遅延処理を行っているため、四半期を周期とすることは適切ではありません。最後に、一部の指標に関しては、月次データがより良い効果を持つ可能性があり、月を周期とするデータはモデルの検証をより効果的にし、特異値の発生を排除します。

表 7 からわかるように、収益の観点から見ると、リッジ回帰、SVR、ランダムフォレストの三つのアルゴリズムは、線形回帰と同様に、相対的に明確な単調の戦略収益率を得ることができます。その中でも、SVR のトレンドが最も明確です。ランダムフォレストのトレンドはあまり顕著ではなく、頭と尾の収益率の境界が比較的明確であり、中間グループの境界は比較的曖昧です。

2.3 異なるファクター組み合わせのアルゴリズム実証比較#

すべてのファクターを三つの異なるファクター組み合わせに分け、表 8 を参照します。

表 8 異なるファクター組み合わせ#

No	ファクター名	組み合わせ1	組み合わせ2	組み合わせ3（全ファクター）
1	EP	●	●	●
2	BP		●	●
3	PS			●
4	DP			●
5	RD	●	●	●
6	CFP			●
7	log_NC	●	●	●
8	LEV	●	●	●
9	CMV		●	●
10	FACR			●
11	NI_p	●	●	●
12	NI_n	●	●	●
13	GPM		●	●
14	ROE		●	●
15	ROA			●
16	OPTP			●
17	PEG	●	●	●
18	g			●
19	G_p			●
	合計数	7	11	19

異なるアルゴリズムの下で、購入順位付けを行った後、上位 50 名の株式を選択します。30 日ごとにリバランスを行います。詳細なバックテスト条件は表 9 を参照します。

表 9 バックテスト条件#

株式プール	リバランス周期	アルゴリズム	保有数	ファクター組み合わせ
中証全指	30日	線形回帰，リッジ回帰， SVR，ランダムフォレスト	50	組み合わせ1，組み合わせ2，組み合わせ3（全ファクター）

上記の方法に基づき、異なるアルゴリズムでバックテストを行い、バックテスト結果は表 10 を参照します。

表 10 異なるアルゴリズムのバックテスト結果#

図 6 異なるアルゴリズムの超過収益図（ファクター組み合わせ 3）

図 7 異なるアルゴリズムのバックテスト結果指標（ファクター組み合わせ 3）

表 10、図 6、図 7 からわかることは：

収益とリスクのバランスが最も理想的な戦略は、全ファクター組み合わせの SVR アルゴリズム戦略であり、この戦略の収益率は 243%、シャープレシオは 0.987、IR は 1.742 です。これら三つの指標はすべての投資組み合わせの中で最も良好であり、最大バックテストは他の投資組み合わせと同等、またはそれ以下です。
長期的に見て、この投資戦略は異なるアルゴリズムの下で基準を上回ることができます。この投資戦略の下では、全体的に見て、収益率が最も良好なのは SVR です。SVR の最低収益率もリッジ回帰および線形回帰の最高収益率よりもわずかに高いです。次にランダムフォレストが続き、リッジ回帰と線形回帰はほぼ同等です。
ファクター数が増えるにつれて、線形回帰およびリッジ回帰の収益率は逆に低下し、SVR はファクター数が増えるにつれて収益率が上昇します。ランダムフォレストの収益率は不安定です。シャープレシオと IR のパフォーマンスは収益率と似ています。
異なるファクター組み合わせは異なるアルゴリズムの下で最大バックテストに大きな差はなく、特定のアルゴリズムやファクター組み合わせに特別な優位性はありません。これは、この投資戦略自体がリスク管理において不足していることを示しています。
テストセットおよび検証セットのスコアリングから見ると、ランダムフォレストのモデルフィッティング度が最も高く、予測精度も最も高いです。SVR のフィッティング度は不安定です。線形回帰とリッジ回帰のフィッティング度は基本的に一致しています。
ファクター数が増えるにつれて、線形回帰、リッジ回帰、ランダムフォレストのスコアが高くなり、ファクター数が増えるにつれてフィッティング度が高くなることを示しています。SVR のスコアはファクター数とは明確な関係がありません。SVR は検証セットのスコアとテストセットのスコアの差が最も大きいです。

2.4 異なる保有数のアルゴリズム実証比較#

現在、海外の定量投資界では、投資家が一般的に選択するポートフォリオ規模は 50 から 60 株であり、海外の主要な投資ファンドは 60 株を保有規模としています。これは、投資家がポートフォリオ規模が拡大するにつれて非システマティックリスクが相応に低下し、ゼロに近づくと考えているからです。しかし、過度に大きな規模はコストの増加と収益率の低下を引き起こす可能性があるため、限界効用逓減の法則に従い、規模が小さいときに規模を増やすことはリスクを低下させますが、規模が増大するにつれて、一定の臨界値を超えるとリスク低下の速度が緩やかになります。したがって、規模は無限大には選択できません。また、規模が拡大するにつれて、ポートフォリオの効率が低下し、大量の原資と高額な取引コストが顕在化します。この記事では、異なる保有数における収益とリスクの異なるパフォーマンスを分析し、実証するために、表 11 に示すファクター組み合わせ 3（全ファクター組み合わせ）を用いて、保有数をそれぞれ 5、10、30、50 に設定し、バックテストを行います。詳細なバックテスト条件は表 11 を参照し、バックテスト結果は表 12 を参照します。

表 11 バックテスト条件#

株式プール	リバランス周期	アルゴリズム	保有数	ファクター組み合わせ	トレーニングセット
中証全指	30日	線形回帰，リッジ回帰， SVR，ランダムフォレスト	5， 10， 30， 50	組み合わせ3 （全ファクター）	【T-84，T】

表 12 異なる保有数のアルゴリズム比較#

表 12 からわかることは：

収益が最も良好なのは SVR アルゴリズム（保有数 5）の場合であり、このアルゴリズムは 698% の最高収益率を実現し、シャープレシオと IR も最高で、それぞれ 1.61 と 2.03 に達します。しかし、このアルゴリズムの最大バックテストも非常に高く、50% を超えています。戦略のボラティリティは基準のボラティリティを大きく上回ります。最大バックテストが 50% を超えないことを考慮する場合、SVR アルゴリズム（保有数 30）の場合が最も理想的であり、このアルゴリズムは 263% の収益率を実現し、一般的に他の状況よりも高く、シャープレシオは 1.07 で、他の状況よりも一般的に高いです。この保有数では、最大バックテストが 44% に低下し、平均値に近づきます。
同じ保有数の下で、収益率およびシャープレシオのランキングはおおよそ SVR > ランダムフォレスト > リッジ回帰 > 線形回帰の順序を保ちます。
保有数が減少するにつれて、各アルゴリズムの収益率は上昇し、SVR の上昇が最も顕著です。これにより、保有が分散するほど収益が平準化されやすくなることがわかります。一方、戦略のボラティリティは逆に、保有が集中するほどボラティリティが大きくなります。
線形回帰とリッジ回帰は保有数が減少するにつれて、最大バックテストが徐々に縮小する傾向を示します。リッジ回帰は保有数が 5 のときに最大バックテストが最小になり、利益損失比が最大になります。一方、SVR とランダムフォレストは保有数が減少するにつれて、最大バックテストが明らかに拡大します。
収益とリスクの指標を組み合わせると、線形回帰およびリッジ回帰アルゴリズムを使用する場合、最適な保有数は 5 であり、SVR およびランダムフォレストアルゴリズムを使用する場合、最適な保有数は 30 です。

2.5 異なる市場スタイルのアルゴリズム実証比較#

異なる市場スタイルに基づいて異なる投資戦略を構築することについては、以前に多くの研究者が研究を行っています。例えば、中国株式市場の周期区分の実証分析、強気市場と弱気市場の追い風と逆風の戦略、市場の慣性戦略と反転戦略、強気市場と弱気市場の周期的相関研究などです。最近では、人工知能や機械学習を市場選択に応用する研究も増えてきています。この記事では、これらの研究を基に、異なる市場スタイル間の切り替えに応じて異なるバックテスト期間を設定し、表 13 を参照します。

表 13 異なる市場スタイルのバックテスト期間#

区間番号	バックテスト期間	区間長	市場スタイル
区間1	2014年4月1日—2014年9月30日	6ヶ月	調整—上昇
区間2	2014年10月1日—2015年4月30日	7ヶ月	上昇—上昇
区間3	2015年3月1日—2015年9月30日	7ヶ月	上昇—下降
区間4	2015年7月1日—2015年11月30日	5ヶ月	下降—上昇
区間5	2017年8月1日—2018年3月31日	8ヶ月	調整—下降
区間6	2017年10月1日—2017年12月31日	3ヶ月	調整—調整
区間7	2015年9月1日—2016年1月31日	5ヶ月	下降—下降

バックテスト条件は表 14 を参照し、バックテスト結果は表 15 を参照します。

表 14 バックテスト条件#

株式プール	リバランス周期	アルゴリズム	アルゴリズムパラメータ	保有数	ファクター組み合わせ	バックテスト期間
中証全指	30日	線形回帰，リッジ回帰，SVR，ランダムフォレスト	固定パラメータ	5	全ファクター	区間1，区間2，区間3，区間4，区間5，区間6，区間7

表 15 バックテスト結果#

異なるアルゴリズムの収益とリスクをより明確に比較するために、表 15 を簡略化し、表 16、表 17 を参照します。

表 16 年率収益率ランキング#

表 17 最大バックテストランキング#

表 16、表 17 からわかることは：

収益の観点から見ると、市場スタイルに大きな切り替えがない期間において、全体的に線形モデルは SVR およびランダムフォレストアルゴリズムよりも優れています。市場が長期にわたって調整されている段階では、SVR およびランダムフォレストアルゴリズムは基本的に無効です。長期的な調整トレンドの中では、機械学習アルゴリズムを用いた定量投資の指導には慎重であるべきであり、この時期には他のテクニカル分析理論を組み合わせて投資判断を行うべきです [50]。持続的な下降市場環境においても、SVR アルゴリズムは超過収益を得ることができます。
収益の観点から見ると、市場スタイルに明確な切り替えがある期間において、SVR およびランダムフォレストアルゴリズムは全体的に線形モデルよりも優れています。特に SVR アルゴリズムが際立っています。しかし、市場スタイルが調整から下降に切り替わる期間においては、SVR およびランダムフォレストアルゴリズムは基本的に無効です。
リスクの観点から見ると、市場スタイルに大きな切り替えがない期間において、線形モデルは全体的に SVR およびランダムフォレストアルゴリズムよりも優れています。持続的な上昇段階では、SVR およびランダムフォレストアルゴリズムは基本的に線形モデルに追いつくことができ、他の状況ではそのリスクは線形モデルよりもはるかに高いです。
リスクの観点から見ると、市場スタイルに明確な切り替えがある期間において、特に高いリスク予測能力を示すアルゴリズムはありません。
全体的に見て、市場スタイルに大きな切り替えがない期間において、線形モデルは SVR およびランダムフォレストアルゴリズムよりも優れていますが、逆に SVR アルゴリズムはより優れています（市場スタイルが調整から下降に切り替わる期間を除く）。

2.6 異なるパラメータのアルゴリズム実証比較#

中証全指を実行可能な株式プールとし、保有数を 5 に設定し、固定パラメータとグリッドサーチ（標準 3 折交差検証を伴う）を使用して、異なるパラメータのモデルの一般化程度を検証し、監視モデルパラメータを調整して最適な一般化性能を得ます。バックテスト条件は表 18 を参照し、アルゴリズムパラメータは表 19 を参照し、バックテスト結果は表 20 を参照します。

表 18 バックテスト条件#

株式プール	リバランス周期	アルゴリズム	アルゴリズムパラメータ	保有数	ファクター組み合わせ
中証全指	30日	リッジ回帰， SVR，ランダムフォレスト	固定パラメータ，グリッドサーチ	5	組み合わせ1，組み合わせ2，全ファクター

表 19 アルゴリズムパラメータ一覧#

アルゴリズム	固定パラメータ	グリッドサーチ
リッジ回帰	（表6を参照）	alpha:[1,10,100]
SVR	（表6を参照）	C:[10,100],gamma:[0.1,1,10]
ランダムフォレスト	（表6を参照）	n_estimators:[100,500,1000]

表 20 異なるパラメータのアルゴリズムの収益率およびスコア#

表 20 からわかることは：

リッジ回帰は異なるパラメータ設定方法の下で、固定パラメータの収益率がグリッドサーチの収益率よりも高いです。一方、SVR およびランダムフォレストは不安定なパフォーマンスを示します。
リッジ回帰およびランダムフォレストのモデルフィッティング度（テストセットスコア）は、異なるパラメータ設定方法の下で、グリッドサーチが固定パラメータに比べて明確な向上を示さない一方、SVR のグリッドサーチのテストセットスコアは固定パラメータのスコアを著しく上回ります。
全体的に見て、グリッドサーチを使用することで SVR のモデルフィッティング度が向上します。しかし、グリッドサーチを使用しても収益率の著しい上昇は得られず、場合によっては収益率が低下することさえあります。

2.7 異なるトレーニングセット長のアルゴリズム実証比較#

ロールトレーニングセットの長さを調整し、バックテスト条件は表 21 を参照し、バックテストを行います。バックテスト結果は表 22 を参照します。

表 21 バックテスト条件#

表 22 異なるアルゴリズムのバックテスト結果#

表 22 からわかることは：

収益が最も良好なのは SVR アルゴリズム（トレーニングセット長：3）であり、この戦略のシャープレシオと情報比率も最適です。
収益の観点から見ると、トレーニングセットの長さを増やすことが必ずしも収益率の増加をもたらすわけではありません。線形回帰、リッジ回帰、SVR の最適なトレーニングセット長は 3 であり、ランダムフォレストの最適なトレーニングセット長は 9 です。
リスクの観点から見ると、トレーニングセットの長さを増やすことが必ずしもリスクを低下させるわけではありません。線形回帰およびリッジ回帰アルゴリズムはトレーニングセットの長さが増えるにつれて最大バックテストが下降する傾向を示します。SVR およびランダムフォレストは不安定なパフォーマンスを示します。

3.1 研究のまとめ#

この記事では、四つの機械学習アルゴリズムに基づく株式選択戦略を構築し、主に中証全指成分株を株式プールとして、機械学習アルゴリズムを用いて投資価値のある株式を選択し、投資ポートフォリオを構築することを目指しています。このポートフォリオが将来の一定期間にわたって安定した超過収益を得ることが期待されます。この記事の研究は、株式選択戦略の構築方法を豊かにするだけでなく、機械学習が投資判断にどのように応用されるかについてもいくつかの参考を提供します。

この記事では、中証全指成分株の 2013 年 10 月から 2018 年 7 月までの定期取引日間隔のファクター横断データをデータサンプルとして選択し、その中で 2013 年 10 月から 2018 年 6 月のデータをトレーニングセット（検証セットを含む）、2014 年 1 月から 2018 年 7 月のデータをテストセットとしました。実証研究プロセスは、ファクター選択、戦略構築、データ前処理、実証分析の四つの部分に分かれています。

この記事で構築した定量的株式選択モデルは、2014 年 1 月から 2018 年 7 月の間に累積収益率が最高で 698%（SVR アルゴリズム、保有数 5 の場合）に達し、年率収益率は 59% に達し、同期間の比較基準（中証全指）の業績（収益率：42%）を大きく上回ることができ、この記事の戦略が良好な株式選択効果を持つことがわかります。

グループバックテストの比較分析から、中証全指の状況において、戦略の業績は分位グループの変化に伴い顕著な減少傾向を示し、このモデルが中証全指成分株への投資において強い株と弱い株を効果的に区別できることを示しています。

線形モデル（線形回帰およびリッジ回帰）との比較分析から、この記事の投資戦略は非線形モデル（SVR およびランダムフォレスト）を通じて市場環境の変化に適応し続け、超過収益を持つ株式をより良く発掘できることがわかります。非線形モデルは収益率、シャープレシオ、情報比率の面で良好なパフォーマンスを示し、非線形モデルに基づく株式選択の投資戦略は安定して線形モデルを上回ることができます；回撤の観点から見ると、非線形モデルは線形モデルに対して明確な優位性を持たず、時には回撤が線形モデルと同等またはそれ以上になることもあります。

ランダムフォレストと SVR を比較すると、特定の状況下ではランダムフォレストが SVR よりも高い超過収益を得ることができますが、全体的に見るとランダムフォレストの収益率は SVR よりも低いです。しかし、この記事のファクター条件下では、ランダムフォレストの予測能力は SVR を大きく上回ります。

正則化の利点を持つリッジ回帰は、線形回帰に比べて戦略に対して明確な改善効果を持ちません。これには二つの可能性があると分析しています。第一に、モデルの利用可能なデータが増えるにつれて、両モデルの性能が向上し、最終的に線形回帰の性能がリッジ回帰に追いつくことです。逆に、十分なトレーニングデータがあれば、正則化はそれほど重要ではなくなり、リッジ回帰と線形回帰は同じ性能を持つことが確認されます。第二に、前処理プロセスで外れ値除去と標準化を行うことで、ファクターの多重共線性を低下させるとともに、極端なサンプルの発生確率を減少させ、正則化の価値をさらに弱めることになります。したがって、この記事の戦略において、正則化は収益率などの指標に対して明確な助けを提供していません。

ファクター数が増えるにつれて、どのアルゴリズムにおいても、全体的にフィッティング度と収益率は逆の関係を示します。両者が逆の理由は以下のように説明できます：この記事の定量投資戦略は、予測値から最も下方に偏離した株式を投資対象としているため、フィッティング度が低いアルゴリズムは実際の値と予測値の偏差が大きい株式を見つけやすく、より正確に購入できるからです。

異なるファクター組み合わせや異なる保有数は戦略のパフォーマンスに一定の影響を与えます。線形モデルはファクターが増えると収益率が低下します。非線形モデルはファクターが増えるとより収益を上げる能力を持ちます。保有数が少ないほど収益率が高く、リスクも増加します。

この記事では、市場スタイルを 9 種類に分類し、その中の 7 種類の異なる市場スタイルを実証しました。それぞれは持続的調整、持続的上昇、持続的下降、調整 — 上昇切り替え、調整 — 下降切り替え、上昇 — 下降切り替え、下降 — 上昇切り替えです。各市場スタイルにおいて、人工知能アルゴリズムを用いた収益率と最大バックテストの状況をテストしました。テスト結果に基づくと、市場スタイルに大きな切り替えがない場合、線形モデルのアルゴリズムは SVR およびランダムフォレストアルゴリズムよりも優れていますが、逆に SVR アルゴリズムが最も優れたパフォーマンスを示し、このアルゴリズムの収益は他のアルゴリズムを大きく上回ります。

最後に、アルゴリズムの最適化に関して、グリッドサーチを用いてアルゴリズムのパラメータを最適化する方法や、ロールトレーニングセットの長さを増やす方法でモデルの一般化程度を最適化することは、収益率の明確な上昇をもたらさず、場合によっては低下させることさえあります。SVR アルゴリズムの収益率は、グリッドサーチやパラメータ値に対して非常に敏感であり、SVR アルゴリズムを使用する際にはそのパラメータの合理性を十分に議論する必要があります。収益率とシャープレシオの観点から見ると、線形モデルおよび SVR アルゴリズムのバックテスト効果が最も良好なロールトレーニングセットの長さは 3 か月、ランダムフォレストアルゴリズムのバックテスト効果が最も良好なロールトレーニングセットの長さは 9 か月です。

以上のことから、機械学習に基づく株式選択戦略は、表 23 に示すように使用するべきです。

表 23 異なるアルゴリズムに対応する最適戦略#

3.2 不足と今後の改善方向#

機械学習が定量的株式選択にどのように応用されるかの研究は、投資分野のホットな問題の一つです。この記事では、従来の多因子モデルを基に機械学習を用いた株式選択を導入し、より効果的な定量的株式選択戦略を構築しようとしましたが、以下のような点で不足があります：

まず、この記事の戦略はリスク管理において不足しており、特に 2015 年の牛熊市場の市場スタイルの切り替えが異常に迅速であり、この記事の定量投資戦略は市場の高リスク時にストップロスなどのリスク管理を考慮していないため、最大バックテストが大きくなっています。利益確定やストップロス条件を追加したり、タイミングモデルを導入して株式の売買時期やポジションを判断したり、ヘッジメカニズムを利用してリスクをヘッジすることで、リスクを管理できる可能性があります。時間の関係で、この記事ではこの点について深く研究していません。

次に、この記事では多因子モデルを使用する際に使用するファクターの範囲が狭く、主にファンダメンタルに基づいています。ファンダメンタル以外、例えばテクニカルファクターは考慮されていません。

最後に、実際の条件の制約により、この記事の定量投資戦略の評価は主に歴史データのバックテスト結果に基づいて比較および評価されており、後続の実取引シミュレーションやリアルタイム取引の追跡は行われていません。この記事の戦略は、実際の取引でさらに検証される必要があります。

特に感謝：この記事は JoinQuant に基づいて開発研究されており、使用されたソースコードは以下のリンクを参照してください：

https://www.joinquant.com/view/community/detail/7a63b350815f79bfd4d83ab22d0f291a