ページの本文へ

Hitachi

企業情報研究開発

2017年6月13日

発表者からのレポート

2017年4月26日から4月29日までの3日間、ポルトガルのPortoにおいて国際学会GISTAM2017が開催され、筆者はそこで空間分布データの管理技術に関して発表しました。この学会は地理空間情報処理技術に関する、2017年で3回目を数える新興の国際学会で、ヨーロッパを中心に各国の研究者が研究成果を発表しました。


図1 ユースケース
拡大図

筆者の発表は、降雨量等、さまざまな分布のデータをデータベースに格納するための技術に関する発表です。一般的なデータベースシステムでは分布のデータそのままでは件数が多すぎて扱いにくいという問題がありました。本発表の技術[1]は、利便性を損なうことなくデータ件数を削減し、ビッグデータとしての利活用を推進するためのもので、今回、高速化の技法を加え、それに伴う新たな実験結果をまとめて報告しました。

本技術の特徴は、機械学習分野で予測に用いられるカーネル回帰分析を用いたデータの間引きにあります。空間分布のデータが間引かれた状態であっても、カーネル回帰分析の予測を用いれば、間引かれたデータをある程度の誤差で復元することができます。本技術ではそれに着目し、誤差が所定の閾値以内に収まるように間引くことでデータ件数を削減することに成功しました。この技術の欠点として、そのようなデータ処理に時間を要する点がありますが、本発表ではこれをヒープ木の構造を用いて高速化する方法やパラメータ選択の性能への影響の詳細を分析して報告しました。


図2 パラメータによる精度の比較
拡大図


図3 間引かれたデータ(赤▲のみでデータが復元可能)
拡大図

本技術によってこれまでアナリティクスにかけにくかった分布データを分析しやすくし、新たな価値につながっていくことが期待されます。今後も、さらに多種多様なデータが価値を生み出す社会に向け、新たな価値を生み出す技術を高めていきたい次第です。

関連論文

  • [1] 淺原 彰規, 林 秀樹, "カーネルガウシアンプロセス回帰による時空間分布データ削減方式", "情報処理学会論文誌", 2017, Vol. 58, No. 1, pp. 2-12, Jan.
  • ページの先頭へ