YoloLSTM
  • 深層学習
  • ACM MobiSys
  • IPSJ UBI
  • Flutter

一般物体検出とCNNおよびLSTMを組み合わせることで、物体の特徴や数に着目した自己位置推定モデルを構築しました。 大学の研究室で7800枚撮影したデータセットで実験を行った結果、提案手法は、同じ層数を持つ全体画像を入力としたCNNモデルと比較して、14.4%高い精度を達成することが明らかになりました。

背景と手法

近年、スマートフォンが普及する中で、GPSを主軸としたナビゲーションシステムが広く利用されています。 しかし、駅構内やビルなどの屋内では、GPSの精度が低下する問題があります。

先行研究として、CNNをベースとした手法が数多くありますが、画像全体から畳み込みを行うため、同じ物体が多く存在する室内環境において精度が低下しやすい課題が挙げられます。

そこで、本研究では一般物体検出のYOLOv8を用いて検出した物体をクロップし、それに対してCNNを用いて特徴抽出を行うことで、物体単位での特徴を考慮できる位置推定モデルを提案しました。また、画像によって写る物体の数が変わるため、LSTMを用いて各物体の特徴を統合することで対応しています。

発表

2024年5月に情報処理学会 第82回UBI研究会にて口頭発表を行いました。(左下は屋久島名物の亀の手)

また、翌月の6月に国際会議 ACM MobiSys'24 のDemo sessionにおいて、デモ発表を行いました。 Demo sessionでは、本研究のモデルを用いて写真から研究室の屋内位置を推定してマップに表示するFlutterアプリケーション開発を行い、英語ポスター発表と併せて動かしました。

リンク

使用技術

言語 ・・・ Python, (Dart) フレームワーク、ライブラリ ・・・ PyTorch, YOLOv8, (Flutter)