機械学習におけるハイパーパラメータ調整のテクニック

機械学習モデルの性能を最大限に引き出すためには、ハイパーパラメータの調整が不可欠です。ハイパーパラメータとは、学習プロセスやモデル構造に影響を与える設定値のことで、モデルが学習する前に決定する必要があります。適切なハイパーパラメータを見つけることで、モデルの精度や汎化性能を向上させることができます。今回は、ハイパーパラメータ調整の基本的なテクニックとその実践方法について紹介します。

moun45.hatenablog.com

1. ハイパーパラメータとは？

ハイパーパラメータは、モデルのトレーニング前に設定するパラメータです。これに対して、トレーニング中に学習されるパラメータ（例えば、ニューラルネットワークの重み）はモデルパラメータと呼ばれます。ハイパーパラメータの例としては、学習率、バッチサイズ、エポック数、決定木の深さ、ドロップアウト率などがあります。

2. ハイパーパラメータ調整の重要性

適切なハイパーパラメータの設定は、モデルの性能を大きく左右します。過適合や過剰適合を防ぎ、モデルの汎化性能を向上させるために、慎重な調整が求められます。特に大規模なデータセットや複雑なモデルの場合、ハイパーパラメータの選択がモデルの性能に大きな影響を与えます。

3. ハイパーパラメータ調整のテクニック

グリッドサーチ（Grid Search）

グリッドサーチは、指定されたパラメータの範囲内で全ての組み合わせを試す方法です。各組み合わせに対して交差検証を行い、最適なパラメータセットを見つけます。利点は単純で理解しやすい点ですが、組み合わせが多くなると計算コストが高くなるという欠点があります。

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# パラメータの設定
param_grid = {
 'n_estimators': [100, 200],
 'max_depth': [10, 20, None],
 'min_samples_split': [2, 5, 10]
}

# モデルとグリッドサーチの設定
rf = RandomForestClassifier()
grid_search = GridSearchCV(rf, param_grid, cv=5)

# トレーニングデータでフィット
grid_search.fit(X_train, y_train)

# 最適なパラメータ
print(grid_search.best_params_)

ランダムサーチ（Random Search）

ランダムサーチは、グリッドサーチに比べて計算コストを抑えるために、パラメータ空間からランダムに組み合わせを選択して評価する方法です。効率的に探索が行えるため、大規模なパラメータ空間にも適しています。

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# パラメータの設定
param_dist = {
 'n_estimators': randint(100, 200),
 'max_depth': [10, 20, None],
 'min_samples_split': randint(2, 11)
}

# モデルとランダムサーチの設定
rf = RandomForestClassifier()
random_search = RandomizedSearchCV(rf, param_dist, n_iter=100, cv=5, random_state=42)

# トレーニングデータでフィット
random_search.fit(X_train, y_train)

# 最適なパラメータ
print(random_search.best_params_)

ベイズ最適化（Bayesian Optimization）

ベイズ最適化は、探索空間を確率モデルでモデル化し、パラメータの探索を効率化する手法です。探索のたびに得られた結果を利用して、次に調整するパラメータを賢く選びます。計算コストが高いモデルに対して特に有効です。

from skopt import BayesSearchCV

# パラメータの設定
param_space = {
 'n_estimators': (100, 200),
 'max_depth': (10, 20, None),
 'min_samples_split': (2, 10)
}

# モデルとベイズサーチの設定
rf = RandomForestClassifier()
bayes_search = BayesSearchCV(rf, param_space, n_iter=32, cv=5)

# トレーニングデータでフィット
bayes_search.fit(X_train, y_train)

# 最適なパラメータ
print(bayes_search.best_params_)

ハイパーバンディット（Hyperband）

ハイパーバンディットは、リソースを効率的に利用して多くのハイパーパラメータ設定を評価する手法です。少ないリソースで多くのパラメータセットを試し、優れた設定に対して徐々に多くのリソースを割り当てていきます。

from keras_tuner import Hyperband
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

def build_model(hp):
 model = Sequential()
 model.add(Dense(units=hp.Int('units', min_value=32, max_value=512, step=32), activation='relu'))
 model.add(Dense(10, activation='softmax'))
 model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
 return model

tuner = Hyperband(
 build_model,
 objective='val_accuracy',
 max_epochs=10,
 factor=3,
 directory='my_dir',
 project_name='intro_to_kt'
)

tuner.search(X_train, y_train, epochs=10, validation_data=(X_val, y_val))
best_hps = tuner.get_best_hyperparameters(num_trials=1)[0]
print(best_hps)

4. ハイパーパラメータ調整のベストプラクティス

段階的な探索: 最初に大まかな範囲で探索し、その後範囲を絞り込む段階的なアプローチが効果的です。
計算資源の考慮: 計算リソースの制約を考慮し、グリッドサーチではなくランダムサーチやベイズ最適化を選択することを検討しましょう。
交差検証の活用: 交差検証を用いることで、モデルの汎化性能を評価し、過適合を防ぐことができます。
ログの管理: ハイパーパラメータ調整の過程を詳細に記録することで、再現性を確保し、後で結果を確認する際に役立ちます。

まとめ

ハイパーパラメータ調整は、機械学習モデルの性能を最大化するための重要なステップです。グリッドサーチ、ランダムサーチ、ベイズ最適化、ハイパーバンディットなどのさまざまな手法を適切に組み合わせて、効率的に最適なパラメータを見つけましょう。適切なハイパーパラメータ調整により、モデルの精度や汎化性能が向上し、より良い予測結果が得られます。

教養としての機械学習

作者:杉山将
東京大学出版会