Taka-Coma's Blog

http://taka-coma.pro/

LOD に対する OLAP 分析

概要

  • Linked Data(LD, Linked Open Data, LODとも)は Sir Tim Berners-Lee によって提唱されたデータ共有の枠組みである
  • 世の中の事象をトリプルと呼ばれる二つのエンティティとそれらを結びつける関係を組合せることで表現する
  • 多くのデータがLODとして公開されるようになってきており,活用すべき
  • 数値的な事実が集まっているので,多次元的な分析をすることで詳細な分析をすることが可能になる
  • LODに対してOLAPを行うための枠組みをベースに処理するデータ量を大幅に削減

研究の推移

  • 研究室の後輩の Inoueら (WAIM'13) がLODデータからOLAPをするための枠組みを提案
    • データをパースし,タイプ(クラス)ごとに属性リストを作成
    • ユーザが興味のある数値属性を指定し,その属性を手がかりにOLAPのためのスタースキーマを生成
    • スキーマに対応するデータをOLAPキューブに読み込んで完了
    • 詳しくは論文を
  • 大きいサイズのデータを手元にとってくるのが手間なので,この手間を削減する
    • 上記枠組みにそうように,必要な情報をSPARQLクエリで記述し,遠隔にあるSPARQLエンドポイントから必要な情報を抜き出す
    • これにより,データのダウンロード量を大幅に削減

成果

国際論文誌
  1. Takahiro Komamizu, Toshiyuki Amagasa, Hiroyuki Kitagawa, “H-SPOOL: A SPARQL-based ETL Framework for OLAP over Linked Data with Dimension Hierarchy Extraction”, International Journal of Web Information Systems (IJWIS), Vol. 12, Iss. 3, pp.359-378, 2016
国際会議
  1. Takahiro Komamizu, Toshiyuki Amagasa, Hiroyuki Kitagawa, “SPOOL: A SPARQL-based ETL Framework for OLAP over Linked Data”, in Proc. the 17th International Conference on Information Integration and Web-based Applications & Services (iiWAS 2015), pp.49:1-10, Brussels, Belgium, December 11-13, 2015
表彰
  1. Best paper award, iiWAS 2015, December 2015