☆浜名湖ワークショップ報告の概要について


 以下は、去る4月下旬にACM SIGMOD-Jの主催で行われた浜名湖ワー クショップの議論の要約です。詳しい内容については、
7月3日の本 大会において報告されます。

ーーーーーーーーーーーーーーーーーーーーーー

 参加メンバー (のべ28名、順不同、敬称略)
北川(筑波大)、片山(NII)、吉川(名大)、田中(克)(京大)、
池田(リコー)、喜連川(東大)、 富井(横国大)、
遠山(慶応)、石川(都立大)、有次(群馬)、天笠(奈良先端)、
寺田(阪大)、中野(東大)、原嶋(東芝)、
植村(奈良先端)、増永(お茶大)、横田(東工大)、
森嶋(筑波)、宮崎(奈良先端)、櫻井(NTT)、福田(IBM)、
清木(慶応)、片山(都立大)、高須(NII)、有川(東大)、
河野(京大)、定兼(九大)大森(電通大)、

担当幹事 高須(NII)、片山(都立大)、中野(東大)
----------------------------------------------------------------------
(1) 出会いを大切に! コミュニティDB
----------------------------------------------------------------------

データベース研究は、伝統的なデータ管理のための技術に加えて、デジタルアー
カイブのようなデータの蓄積から情報検索のような蓄積されたデータの活用ま
で、データ処理にかかわるさまざまな処理を支える技術の研究開発に向かって
展開している。従来のように、そこにデータがあるから蓄積するというだけで
なく、蓄積されたデータの信頼性を高めるための枠組みや蓄積されたデータを
効果的に利用者に提供する技術を通して、データの利用度を高めることが必要
になってきている。このような、問題に対処するための一つの重要な切り口と
してコミュニティがあり、人間 - システム系もしくはコミュニティ - システ
ム系のなかでデータ処理を捉えることが重要である。

(1-1) コミュニケーションと情報検索

日本の文化遺産を電子化する試みなどデジタルアーカイブの構築が進んでいる
が、いかに多くの人に利用してもらえるようにするかが重要である。コンテン
ツを面白く見せる技術(ユーザインタフェース)や、コンテンツを持っている
人が提供したくなる技術の開発がその鍵となる。さらに、利用者がコンテンツ
を介してコミュニケーションできるようにすること、それによってコンテンツ
の内容が豊かになるような仕組みが不可欠である。複数の利用者で閲覧できる
webブラウザや、複数の利用者で協調して情報を探索するためのサーチエンジ
ン、メールで対話をすると自動的に必要な情報を抽出してくれる機能等が求め
られる技術の例である。P2Pは、これらを実現する基盤技術の一つとして利用
できる。


(1-2) コミュニケーションと情報の信頼性

情報の信頼性には、秘密情報の漏洩を防ぐセキュリティ、トランザクション処
理などのディペンダビリティ、情報の質に対するトラストというの3つの側面
がある。セキュリティとディペンダビリティに関して従来より多くの研究が行
われているが、近年、情報に対するトラストをどのように与えればよいかが重
要な課題となっている。コミュニティを利用した情報評価は、そのための有力
な手法である。その情報を作り出した人間に対する信頼に基づいてトップダウ
ンにトラストを与える方法が考えられるが、それよりもむしろ、ある情報をど
のくらいの人が信頼しているかや、その情報を生成するために要した手間(調
査範囲など)をもとにトラストを与えるボトムアップの方法が興味深い。この
ような観点からの、(本来の意味での)Social filtering、レコメンデーショ
ン、P2Pの研究が求められる。また、これまでのセキュリティの研究は、人間
がコンピュータを操作するという視点からのものであったが、今後はコンピュー
タ自身が他のコンピュータを操作する状況がしばしば現れると思われる。この
ような環境の変化に合わせて、アクセス制御やフロー制御の他、公開された統
計情報から個人情報を計算できないようにする推論制御についての研究も見直
す必要がある。




(1-3) 人間とコンテンツのインタラクション

 デジタルコンテンツを生成・蓄積・検索・流通させる上で,人間とコンテン
ツのインタラクションとこれをサポートする技術の重要性が指摘された.デジ
タルコンテンツは,人間によって活用されることにより,新たな知見が生まれ
このような知見が新たにコンテンツとなって蓄積・共有されるという,循環型
のコンテンツ環境を構築する技術が重要である. 例えば,Webコンテンツで
は,WebDAVに代表されるようなWeb書き込み技術の標準化が進展している.ま
た,blogのようなWebコンテンツに対する人間のコメント・評価情報もWeb上に
すでに大量に生成・蓄積されている.Webコンテンツに対するこのような人間
の評価情報を用いると,検索されたWeb情報の品質に対する信用度(トラスト)
を向上させる可能性があり,Web Trust向上技術は,現在最も重要な研究課題
となっている.さらに,Webからの情報探索行為を複数の人間が共有しながら
行ったり,情報探索行為のノンハウやブックマーク情報を共有することでも
Web Trust向上につながるものと期待される. 人間の状況やコンテクストを
記憶し,これによって,人間の状況に応じて必要な情報を自動的に収集・検索
してくれるような「状況依存型(context aware)」の情報検索システムも望ま
れている.このためには,絶えず人間の情報活用行為や周囲の状況を記録でき
る,ユビキタスなコンテンツ記録機能が必要であるとともに,ユーザやコミュ
ニティの情報探索・活用行為の意味づけをオントロジーとして定義し,これを
もとにした個人やグループ用の時空間データベースモデル機能が重要となる.
 また,人間とコンテンツのインタラクションとして,単に検索結果を通知す
るだけの機能では不十分であり,図書館のレファレンスサービスにような知的
な情報サービス機能を実現することも重要である.関連する技術として,Web
に対して,利用者が質問応答を行えるWebQA技術がある.WebQA技術は,単なる
Web情報検索ではなく,自然言語による質問応答処理,Webに対する質問から検
索統合プランの自動生成技術,Web検索結果の統合・提示技術などが重要とな
る.






----------------------------------------------------------------------
(2) うるさいと言われ続けても コンテキストアウェアなシステムを!
----------------------------------------------------------------------
  周知のように,近年の技術革新により計算機の高性能化,小型化,低廉化が
急速に進んでいる.その結果,個人が小型のコンピュータを常時身につけて日
常生活を送る「ウェアラブルコンピューティング環境」が現実のものとなりつ
つある.例えば,携帯電話,PDA などの小型情報端末やウェアラブルコンピュー
タには,高性能プロセッサ,大容量メモリ,無線ネットワーク機能が標準的に
装備され,デジタルカメラによる静止・動画像撮影,GPS レシーバによる位置
情報の取得なども可能になっている.

  このように,計算機の活躍する場は屋内の固定された場所から個人の生活環
境そのものへと広がりを見せ,そこで取得されるデータも多様化している.こ
のとき,その上で動作するデータベースシステムには,利用者や周囲の状況を
理解して適切な動作を行うことのできるコンテキストアウェアな機能が求めら
れる.

  コンテキストアウェアなシステムの実現には,利用者の意図や周囲の状況を
計算機がいかに汲み取るか,または与えるかがポイントとなる.この目的のた
めに,複数のセンサから継続的に取得されるデータを利用したコンテキストデー
タのマイニング,利用者のプロファイルとコンテキストを考慮した情報フィル
タリング,状況,文脈に応じた異種メディアデータの意味関係を計量する機構
等が必要である.これらの機能は刻々と変化する状況に追随するために実時間
で処理されなければならない.また,システムが利用者の意図や状況の意味を
正しく理解するためには,オントロジの構築やメタデータの拡充が不可欠であ
る.Semantic Web はその基盤として今後重要度を増すものと予想される.



--------------------------------------------
(3) 地球丸ごとデータベース
-----------------------------------------
地球丸ごとデータベース
 −時空間データベース
 −ウェアラブルデータベース
 −ユビキタスデータベース

データベースは宇宙・地球・組織体,そしてそこに住む生き物,動くもの,動
かざるものすべてに係るデータを組織化し効率よくユーザの利用に供しなくて
はならない.そのためには,時間を含めて4次元の時空間とそこでの営為を的
確に記述できる普遍的なデータモデルが必要である.しかし,応用に依存した
個別のアプローチはこれまで数多く提案されてきているものの決定的はモデル
はなくそれを明らかにしなくてはならない.実世界の情報の8割には位置の情
報が付随しているとも言われておりその効果的利用法が問題でありgeocoding
を考える必要がある.また現在の研究が本当に役に立つアプリケーション開発
を伴っていないのではないかという自省の念も含めて研究・開発に取組む必要
がある.さらに共有サイバースペースの実現により実現する高度コミュニティ
空間の実現まで考えて研究することも大事である.
 ウェアラブルコンピューティングによりデータベースが常時身についている
という意味でデータベースが身体化された状況が実現可能となっている.この
ときにデータベースはどのような役割を果たすことになるのかを研究する必要
がある.ウェアラブルという概念は次世代モバイル環境を実現するという意味
では中心的役割を果たすものであるので,この研究課題はウェアラブルデータ
ベースとは一体何を意味するのかという概念定義をきちんと行うことから始め
る必要がある.ウェアラブルシステムがそれを装着する人々の日常を増強しよ
うとするものなのか非日常をサポートしようとするものなのかは大いに考えて
その概念確立を行う必要がある.ウェアラブル環境で有用なデータベースイン
タフェースは音声なのか,ジェスチャなのか,ポインティングデバイスなのか,
あるいはキーボードなのかも利用可能な関連技術との兼合いで慎重に見定めら
れなければならない.
 ユビキタス(ubiquitous)    とはキリストの遍在を意味する.現在ユビキタ
スXという言葉が氾濫している.X=コンピューティング,データベース,コン
テンツ,メモリ,社会等さまざまである.ではX=データベースと置いたとき何
を意味するのか,現在のところはっきりした定義が与えられているとはいいが
たい状況である.ユビキタスという概念
は個の識別性や個人であること,広義にはウェアラブル性と相対すると同時に
相補的である.到来するかもしれないユビキタス社会とは何か真剣に概念規定
する必要もある.いずれにしてもこの研究はユビキタスとは何なのかしっかり
と考察した上でユビキタスデータベースの納得できる定義を与えることから始
めなければならない.地球丸ごとデータベースを掲げるならば”select *
from the world where I have originally created”といった問合せにもユビ
キタスデータベースは答えてほしい.


------------------------------------------------------------
(4) 究極のテーマ 情報統合
------------------------------------------------------------
 情報統合はデータベース研究において常にその中心的なテーマの1つとな
ってきた.もともと,データベースという概念が形成された背景には,ファイ
ルに分散されたデータの統合利用がある.集中型のデータベースシステムを経
て,ネットワーク環境における分散データの統合を目的に,分散型データベー
ス,連邦型データベース,マルチデータベース等の研究が行われた.さらに,
より最近の情報統合を目的とした代表的アプローチとしては,メディエータ・
ラッパー方式の情報統合,XMLとその関連技術,データウェアハウス等があ
る.
これからの情報技術の一層の発展に向け,情報統合はますます重要な課題と
なることは明らかであり,時代の要請を反映したより高次の統合を目指した研
究が今後も必要である.特に,今後の情報統合を考える上で重要な要因として,
次のような点がある.
(1)ユビキタスコンピューティング環境やGrid,P2P環境等の新たな広域分
散環境の出現により,極めて多数で多様な情報源が日常的に利用可能となりつ
つある.これにより,多様な情報源へのアクセスが可能になるものの,利用者
が真に必要とする情報の獲得に関しては種々の問題が生じつつある.
(2)統合対象となるメディアがますます多様化している.マルチメディア,
Web,各種デジタルアーカイブ等に加え,放送メディア,各種センサーストリ
ーム,GPS,smart dust等も対象とした多様な情報統合が必要となっている.
(3)情報統合に対するニーズはますます高度化しており,複数の情報を有機
的に統合することで,単一の情報源のみでは得られない新たな価値を生み出す
ことが求められている.コミュニケーション支援,システム状態のモニタリン6つ
グ,情報利用時のコンテキストの特定,新たな学問的知見の発見等,様々な場
面で情報統合による支援が求められている.
 これらを踏まえ,今後の重要な研究課題としては,次のような点があげられ
る.
(1)高度情報環境における利用者視点の情報統合:多様なニーズに対応可能
な利用者視点の情報統合の枠組みを構築する必要がある.特に,動的でアドホ
ックな情報統合の実現,情報統合におけるコンテキスト情報の活用,時間的・
空間的・意味的等多様な情報統合尺度の利用等は,重要な課題である.また,
情報の質やセキュリティ等についても一層検討が必要である.
(2)クロスメディア情報統合:メディアの多様化に対応したメディア横断型
のコンテンツ変換,メディア統合,コンテンツ連携等のための技術開発が今後
重要である.さらに,アプリケーションや情報配信等までを包含した,データ
ベース統合の範疇を超える枠組みの構築が必要である.
(3)情報源連携による情報利用の高度化:複数情報源の連携によりメタデー
タや意味データ等を獲得し情報の高度利用を図るアプローチは,今後ますます6つ
有用になると考えられる.マルチメディアデータの意味検索等,様々な領域で
の具体的展開が期待される.




--------------------------------------------------------------------
(5) もう手に負えないぞ!系の複雑さへのチャレンジ
--------------------------------------------------------------------
計算機の基本性能の向上に伴って、ユーザの要求する機能は高度化し、ワーク
ロードも多様化している。これに対応して、従来の単純なホスト-端末型やク
ライアント-サーバー型に替わって、データベースサーバー、ウェブサーバー、
アプリケーションサーバー、不可分散装置などがネットワークで結合された分
散システムとして実現されることが一般的となった。ウェブサービスの出現に
より、このようなシステムがさらに組織をまたがって複数連携して動作するよ
うなことも珍しくなくなった。

このように複雑化した環境においては、バックアップ、障害発生時の問題判別、
アプリケーション開発、ソフトウェアのメンテナンス、セキュリティ管理など
の保守管理にかかるコストが、システム全体の経済性を大きく損なう原因とな
る。この問題を解決するため、自律的に自己を管理する能力を備えたコンピュー
タシステムの開発が求められている。

複雑なシステムを適切に構成することは非常に高いスキルが必要となる。動的
に変化するワークロードに対して、利用可能な資源に応じて、問い合わせ最適
化処理、並行処理制御などを組み合わせ適応的に動作する、自己構成・自己最
適化の技術は重要な研究課題である。

確率的に発生するハードウェア障害に対しては、システムを冗長化することに
より可用性を向上させることができる。一方、ソフトウェアの信頼性は、多く
を開発方法論に頼っているのが現状である。自己回復するシステムを実現する
ための方法として、ソフトウェアの経時的な障害の予兆を検出して早期に再起
動させる技術や、障害が起きることを前提に、如何に短期間で復旧させるかに
焦点をあてた技術の研究が注目を集めている。そこではデータの integrity
を保つデータベース技術が重要な役割を担う。また、システムが自身の状況を
判断するためには、相互依存したコンポーネントが処理の過程で生成する大量
のイベントログを stream data として online で処理する技術が鍵となる。

高度に分散したシステムが、全て単一の技術に基づいて実現されることはあり
えないだろう。自律的なコンピュータシステムを構築するためには、仮想化さ
れたコンポーネントが、互いに協調して動作することが必須であり、このため
の interface の標準化が重要となる。



--------------------------------------------------------------------
(6) これだけは まじめな システム技術
--------------------------------------------------------------------

「速さ」と「確実さ」の追求に代表されるシステム技術は、データベースの基
盤であり、これまでも熱心に研究されてきた対象であると同時に、今後も益々
重要となる永遠の研究テーマである。

データベースシステム技術は、CPU、メモリ、二次記憶装置等の構成要素の技
術動向に大きく影響を受ける。近年、DRAMの容量、ディスク容量が増加する一
方で、CPU性能とメモリアクセス速度の差がさらに大きくなる傾向にある。ま
た、MRAMに代表されるような不揮発半導体メモリの研究開発も進んでいる。こ
のような動向を踏まえた研究が求められている。

メモリ容量の増大や不揮発性半導体メモリの進展を見た場合、半導体メモリを
前提とした各種インデックス構造やトランザクション管理に関する研究が重要
となる。高スループットな主メモリデータベースの適用例としてはストリーム
データベースが考えられ、時系列データへのインデックスも重要度を増す。ま
た、ディスク容量の増大は大量のマルチメディアデータへの高度なインデック
ス技術の研究の進展を求める。と同時に、アーカイブ産業の位置づけの見直し
と、データベースを元にしたシミュレーションのような新たな発展も示唆する。
さらに、記憶容量の増大はストレージ管理コストの増大を招くことから、負荷
分散や耐故障処理、リカバリ処理を含めたストレージ管理を自動化する試みも
重要である。一方、CPU性能とアクセス速度の差に関しては、キャッシュの効
率を向上させるデータベース技術の研究が重要となる。DRAMの構造を意識した
データ構造や、キャッシュミスの回数を最小化するCache-Obliviousなデータ
圧縮アルゴリズムの研究等が考えられる。



=======
( 以上は、参加者によるとりまとめ文章をsigmod-j電子事務局作成.
)