本文へスキップ

新潟県工業技術総合研究所は、工業系の技術支援機関です。


Topページ > 機械・金属関係 技術トピックス  > ディープラーニングによる金属組織の認識(学習モデルによる正解率の違い)
ディープラーニングによる金属組織の認識(学習モデルによる正解率の違い)

1.はじめに
 ディープラーニングで画像認識を行うためのソフトウェアには、何層にも階層化されたニューラルネットワーク(以降、モデルと呼びます)が含まれています。このソフトウェアを作成する場合、モデルを一から構築するのは専門的で難しいため、公開されているKeras1)などのライブラリを使うのが一般的です。ライブラリを使うことで、モデルの開発が不要となり、短いソースコードでディープラーニングのソフトウェアが作成できます。これまでトピックスで紹介した画像認識で作成したソフトウェアについてもモデルにライブラリを使用しているため、数10~100行程度の短いソースコードとなっています。
 これまでのトピックスでは、VGG16という学習済みモデルに金属組織の画像を転移学習させて画像認識を行いました2)~5)。VGG16というモデルを使った理由は、このモデルを使った画像認識がインターネットや技術書で多く取り上げられていて取り組みやすいことと、実際にVGG16で金属組織を認識させた結果、高い正解率が得られたことが挙げられます。
 しかしながら、実際にはVGG16以外のモデルも多くあります。そこで今回は、Kerasというライブラリで提供されている10種類の学習済みモデルについて、同じ金属組織の画像を学習させて正解率を比較しました。この実験は令和2年8月に行ったものです。

2.実験
 金属組織は前回2)と同じ5種類(パーライト、マルテンサイト、オーステナイト、フェライト、球状セメンタイト)とし、各組織100枚の画像を学習用80枚、検証用20枚に分けました。学習用の画像については、画像の水増し(回転、反転、拡大、縮小、幅方向の移動、高さ方向の移動)を行いました。
 ディープラーニングによる学習と検証は表1の条件で行いました。各モデルのパラメータはimagenetによる学習済みパラメータを使用しました。学習においては、BatchNormalization層および出力層(VGG16とVGG19モデルは出力層のみ)のパラメータのみ更新しました。各モデルについて、パラメータの更新の度合いを決める学習率を10-2、10-3、10-4、10-5としたときの正解率を比較しました。

表1 計算の条件
入力画像サイズ 224×224または299×299(各モデルの最大サイズ)
モデル Xception、VGG16、VGG19、ResNet50、InceptionV3
InceptionResnetV2、MobileNet、DenseNet201
NasNetMobile、MobileNetV2
プーリング Maxpooling
活性化関数 Relu, Softmax
最適化アルゴリズム Adam
誤差関数 多クラス交差エントロピ
学習率 10-2, 10-3, 10-4, 10-5
ドロップアウト率 0.5
バッチサイズ 32
学習回数 50


3.実験結果
 各学習モデルに対する検証データの正解率を図1~10に示します。各図には、4種類の学習率(10-2、10-3、10-4、10-5)における学習回数と正解率の関係を示しました。これらの図より、学習回数が進むにしたがって全てのモデルで高い正解率が得られることや、学習率により正解率が変わることが分かります。また、各モデルの正解率を見てみると、ResNet50の正解率はやや低く、Xception、VGG16、VGG19、InceptionV3の正解率はばらつきが小さく安定していることが分かります。
今回の実験では、VGG16モデルで学習率10-3のときに、2回の学習で正解率100%が得られ、VGG16が金属組織の認識に対して有効であることをあらためて確認できました。
 なお、参考として、最適化アルゴリズムをSGDに変更してVGG16モデルの正解率を求めた結果を図11に示します。図11と図2を比較すると、Adamの方が正解率が高くばらつきも小さいことが分かります。

Xception
図1 Xceptionモデルの正解率

VGG16
図2 VGG16モデルの正解率

VGG19
図3 VGG19モデルの正解率

ResNet50
図4 ResNet50モデルの正解率

InceptionV3
図5 InceptionV3モデルの正解率

InceptionResNetV2
図6 InceptionResNetV2モデルの正解率

MobileNet
図7 MobileNetモデルの正解率

DenseNet201
図8 DenseNet201モデルの正解率

NasNetMobile
図9 NasNetMobileモデルの正解率

MobileNetV2
図10 MobileNetV2モデルの正解率

VGG16(SGD)
図11 VGG16モデルの正解率(最適化アルゴリズムはSGD)

参考文献
1) Kerasで利用可能なモデル(ImageNetで学習した重みをもつ画像分類のモデル)https://keras.io/ja/applications/
2) ディープラーニングによる金属組織の画像認識
http://www.iri.pref.niigata.jp/topics/R2/2kin3.html
3) ディープラーニングによる炭化物を含む鋼の金属組織の認識http://www.iri.pref.niigata.jp/topics/R2/2kin4.html
4) ディープラーニングによるステンレス鋼の鋭敏化組織の認識http://www.iri.pref.niigata.jp/topics/R2/2kin5.html
5) 焼入れ温度が異なる炭素鋼のディープラーニングによる金属組織の認識http://www.iri.pref.niigata.jp/topics/R2/2kin8.html

  問い合わせ:新潟県工業技術総合研究所
        中越技術支援センター   斎藤 雄治
        TEL:0258-46-3700   FAX:0258-46-6900