ディープラーニングによる金属組織の認識（学習モデルによる正解率の違い）

Topページ　>　機械・金属関係　技術トピックス　>　ディープラーニングによる金属組織の認識（学習モデルによる正解率の違い）

ディープラーニングによる金属組織の認識（学習モデルによる正解率の違い）

１．はじめに

　ディープラーニングで画像認識を行うためのソフトウェアには、何層にも階層化されたニューラルネットワーク（以降、モデルと呼びます）が含まれています。このソフトウェアを作成する場合、モデルを一から構築するのは専門的で難しいため、公開されているKeras¹⁾などのライブラリを使うのが一般的です。ライブラリを使うことで、モデルの開発が不要となり、短いソースコードでディープラーニングのソフトウェアが作成できます。これまでトピックスで紹介した画像認識で作成したソフトウェアについてもモデルにライブラリを使用しているため、数10～100行程度の短いソースコードとなっています。
　これまでのトピックスでは、VGG16という学習済みモデルに金属組織の画像を転移学習させて画像認識を行いました^2)～5)。VGG16というモデルを使った理由は、このモデルを使った画像認識がインターネットや技術書で多く取り上げられていて取り組みやすいことと、実際にVGG16で金属組織を認識させた結果、高い正解率が得られたことが挙げられます。
　しかしながら、実際にはVGG16以外のモデルも多くあります。そこで今回は、Kerasというライブラリで提供されている10種類の学習済みモデルについて、同じ金属組織の画像を学習させて正解率を比較しました。この実験は令和2年8月に行ったものです。

２．実験

　金属組織は前回²⁾と同じ5種類（パーライト、マルテンサイト、オーステナイト、フェライト、球状セメンタイト）とし、各組織100枚の画像を学習用80枚、検証用20枚に分けました。学習用の画像については、画像の水増し（回転、反転、拡大、縮小、幅方向の移動、高さ方向の移動）を行いました。
　ディープラーニングによる学習と検証は表1の条件で行いました。各モデルのパラメータはimagenetによる学習済みパラメータを使用しました。学習においては、BatchNormalization層および出力層（VGG16とVGG19モデルは出力層のみ）のパラメータのみ更新しました。各モデルについて、パラメータの更新の度合いを決める学習率を10^-2、10^-3、10^-4、10^-5としたときの正解率を比較しました。

表1　計算の条件

入力画像サイズ	224×224または299×299（各モデルの最大サイズ）
モデル	Xception、VGG16、VGG19、ResNet50、InceptionV3 InceptionResnetV2、MobileNet、DenseNet201 NasNetMobile、MobileNetV2
プーリング	Maxpooling
活性化関数	Relu, Softmax
最適化アルゴリズム	Adam
誤差関数	多クラス交差エントロピ
学習率	10^-2, 10^-3, 10^-4, 10^-5
ドロップアウト率	0.5
バッチサイズ	32
学習回数	50

３．実験結果

　各学習モデルに対する検証データの正解率を図1～10に示します。各図には、4種類の学習率（10^-2、10^-3、10^-4、10^-5）における学習回数と正解率の関係を示しました。これらの図より、学習回数が進むにしたがって全てのモデルで高い正解率が得られることや、学習率により正解率が変わることが分かります。また、各モデルの正解率を見てみると、ResNet50の正解率はやや低く、Xception、VGG16、VGG19、InceptionV3の正解率はばらつきが小さく安定していることが分かります。
今回の実験では、VGG16モデルで学習率10^-3のときに、2回の学習で正解率100％が得られ、VGG16が金属組織の認識に対して有効であることをあらためて確認できました。
　なお、参考として、最適化アルゴリズムをSGDに変更してVGG16モデルの正解率を求めた結果を図11に示します。図11と図2を比較すると、Adamの方が正解率が高くばらつきも小さいことが分かります。