ページの本文へ

Hitachi

企業情報研究開発

2016年7月11日

発表者からのレポート

人口減少、少子高齢化に伴う環境変化が進展する中、社会インフラのサービス品質を維持しながら効率性を重視して再構築することは、特に先進国においては重要な課題です。とりわけ、熟練作業員の退職によるノウハウ断絶は、差し迫った課題となっています。こうした課題を解決するために、機械学習技術は欠かせないものと考えています。The International Conference on Machine Learning (ICML) は、毎年開催される機械学習技術の国際会議であり、世界最先端の研究成果に触れることができます。今回、2016年6月19日から24日までの6日間、米国ニューヨークにて開催され、参加者数は3000名以上と昨年よりも2倍に参加者が増え、世界的にこの分野に注目が集まっていることがうかがい知れました。


図1 提案手法の説明
拡大図

筆者は、ICML2016 Workshop 「Reliable Machine Learning in the Wild」において「Evaluation of Multi-armed Bandit for Automatic Operation Management」というタイトルでポスター発表を行い、社会インフラの運転管理を実施する上での人間の意思決定を強化学習と呼ばれる手法で支援する方式に関する研究成果を報告しました。

社会インフラの運転管理では、状況に応じて適切な行動を選択しなければなりません。たとえば、ATM (Automatic Teller Machine) の運転管理では、お客様の入出金の需要状況に合わせて、適切な現金量をATM内に装てんしておく必要があります。ATMへ現金を装てんするには、輸送などのコストが発生しますので、運転管理者はコスト低減とお客様満足を両立するように、日々の現金装てん量を適切に決定する必要があります。そこで、筆者らは、過去の経験から行動の価値を学習する強化学習技術の一手法である多腕バンディットと呼ばれる手法に現在の状況を導入することで、状況に応じた効率の良い運転管理を実現できることを示しました。一方で、お客様の需要を満足させられなかった場合に生じるコストは直接観測できないため、事前設定する必要があり、こうした設定値に依存して最終的な学習結果が変化する性質があることを示しました。

今後、このような強化学習における性質を考慮し、社会インフラの運転・維持管理やサービスロボットの自己学習への適用を進めていく予定です。

(秋山 高行    記)

  • ページの先頭へ