先週末の11月14日、慶應義塾大学でWorld Wide Web Consortium (W3C)による技術カンファレンス「W3C Day 2003」が開催され、お馴染みのTim Berners-Lee氏が登場し、セマンティックWebについていつものように熱く語ったという。私は参加しなかったのだが、今回はこの「セマンティックWeb」を話題にしてみよう。
CNET Japan : 「セマンティックWebは着実に広がる」:ウェブの生みの親、ティム・バーナーズ・リーが来日
さてさて、セマンティックWebとは何ぞや。まずはW3C Semantic Webのサイトを見てみよう。そこには、
Definition: The Semantic Web is the representation of data on the World Wide Web. It is a collaborative effort led by W3C with participation from a large number of researchers and industrial partners. It is based on the Resource Description Framework (RDF), which integrates a variety of applications using XML for syntax and URIs for naming.
"The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation." -- Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001
とある。どうもこういうフワフワしたものは歯切れが悪いし本質がわかりにくい。なんだか煙に巻かれたような気がする。そういう居心地の悪さを感じているあなたには、以下を読んでスッキリしてもらいたい。
セマンティックWebとメタデータ
セマンティックWebのコンセプトは、少なくともその起源においては「Webサイトの属性を、ただのHTMLではなくコンピュータが扱いやすい形で提供するための仕組みを考えよう」というものである。
例えば「このサイトはオーナーが誰々で、最終更新日が云々で、連絡用メールアドレスは云々で、ミラーサイトが此処と此処で。。。」というようなメタデータを標準化しておけば、いまGoogleなどの一部のパワフルでノウハウ満載のエンジンに依存しているWebサイトの検索が、もっとライトな仕組みでも簡単に実現可能になるだろう、というWebコンテンツ利用者のメリットを追及するものだ。(ということは、Webコンテンツ提供者にとっては色々な意味においてデメリットでもありうるということなのだが、今回そこまでは踏み込まない)
ここで、「メタデータ」というのはデータ本体ではなくそれに付随するような情報のことである。判りやすい例で言えば、Windowsを使っているときのファイルはデータだが、ファイルのプロパティ(作成日やサイズ、パスなど)がメタデータである。今回の文脈だとHTMLがデータ本体で、そのHTML自身の属性をRDF (Resource Description Framework)という形式で切り出したものがメタデータである。HTMLを知っている人なら、METAタグというのが存在することを思い出すだろう。あれはまさにメタデータをHTML本体に永続化して埋め込むために作られたものである。
実はBlogの流行によって使われるようになってきたRSS (RDF Site Summary)は、このセマンティックWebのコンセプトに因っている。例えばこのBlogのRSS Feedも、一度ざっと見て欲しい。ここに記述されているようなものが、まさにメタデータだ。
RSS Feed - http://blog.japan.cnet.com/kenn/index.rdf -
さて、こうしたメタデータをあらゆるWebパブリッシャーの間で共通化することで、膨大なWeb空間を串刺しにして検索できるようにしてやろうというのがTim Berners-Leeの野望である。
標準化されたセマンティクスは表現の墓場
しかし、果たしてメタデータの共通化、すなわちセマンティクス(意味)の標準化など可能なのだろうか?
誰もが疑うように、この壁は高く厚い。意味とは、それ自身の定義により、生き物のようなものである。日々変化を繰り返し、それが通用する広さや共有される範囲によってコミュニティというものを定義する。
そして、コミュニティ内部の活性とエントロピーが高い場合、意味は受け手によってバラエティに富んだ解釈がなされる。HTMLをベースとした無秩序なWebの世界がものすごい勢いで広がっていったことは、表現の自由度や面白さを優先するのに寛容であったことと無関係ではない。
裏を返せば、解釈が一意に定まるような意味体系で満たされており、厳格に標準化され自動化されたコミュニティは、すでに人間性を失っている。いわば、セマンティクスの標準化というものは「表現の墓場」である。クリエイティブという単語の正反対に位置する、左脳的な世界なのである。
Webの世界が膨張を止め、静まり返った図書館のようになるその時まで、セマンティックWebとやらの出番はないのではないか?とあなたが感じているとしてもそれは不思議ではない。
定番のメタデータとは
しかし一方で、墓標入りしてもよかろうという中立性の高いメタデータもいくつか存在する。Dublin Core Metadata Initiativeで定められている15の要素集合(Dublin Core Metadata Element Set, Version 1.1: Reference Description)というのがそれだ。
この絞りに絞った15の意味定義についてさえ、実装に落とし込むには超えなければいけない壁が大きいことに気付くだろう。主に正規化に関する問題だが、CreatorやPublisherといった重要なデータ項目でさえ、コード化されていないため記述方法のブレが大きい。コード化という発想はコンピュータの原始時代からあったわけだが、Web時代ならではのアドバンテージといえば識別子にURI (Uniform Resource Identifiers)という信頼性・利便性の高いコード生成規則が使えるようになったことぐらいだろう。(ちなみにコードといえば、「ISO標準コードは最強最悪のサブマリン的・知的財産権となるか?」でも述べたように、広域に管理されているものが利用可能かどうかが重要である。セマンティックWebの目指す世界では独自のローカルコードは全く役に立たない)
また、コンテンツクリエイターの皆さんなら「5W1H」という金科玉条を思い出したかも知れない。昔から、「いつ(When)、どこで(Where)、だれが(Who)、なにを(What)、なぜ(Why)、どのようにして(How)をはっきりさせることで、伝わりやすい文章になる」と言われていたではないか。
この「5W1H」の中でも無機質で客観性の高いメタデータは「When」と「Where」と「Who」だ。とりわけ「When」は最も歴史ある世界標準のメタデータで、16世紀来普及を続けてきたグレゴリオ暦と時差の概念に準拠してさえいれば、英語や日本語といった言語の壁を越え、世界中のあらゆるコミュニティで受容可能である。ISO8601なんていう標準書式まで与えられているため実装にもブレはない。
また、先の話を振り返って欲しいのだが、そういえばWindowsなどのファイルシステムにおけるファイルの静的なメタデータ(プロパティ)といえば、やはりファイル名(What)、作成者(Who)、日付(When)、パス(Where)などであった。
どうやらこの「5W1H」あたりがセマンティックWebの世界でも重要なメタデータであるらしいことはわかってきた。(一般に言って、「What」や「How」はスコープやコミュニティを制限して明確にしなければ標準化が難しいことは容易に想像がつくだろう)
そろそろお気づきのことと思う。標準化が可能なメタデータなんていうものは、実は高々この程度しかないのだ。WhenやWhereなどの無機質なメタデータを、気宇壮大にセマンティクスなどとは普通呼ばない。その程度なら、もうRSSがあるではないか。そして、セマンティクスというものが人間の常識や感性に依存するものである限り、驚くようなテクノロジーによる解決なんてあり得ない。結論はほぼ見えているのではないか。
偉い人の言うことは正しいという民衆心理
Tim Berners-Leeの目指す世界は、不変の価値を持つコンテンツ(=リソース)に一意に識別子を与えて検索もできてみんなハッピーということらしいが、そもそも個人または少数によって生み出される雑多なコンテンツをリソースであるとみなすスタンスがバランスが悪いと言わざるを得ない。リソースとは本来、「常識」のように時間をかけて醸成され洗練されたものである。(という前提をここでは置く。そう定義しなければ話が進まないからだ)
コンテンツとは、言語や常識という潜在的で目に見えない人間内在型の柔らかい共有リソースを90%使いながら、10%程度の新しいエッセンスを味付けするという性質のものである。このバランスがおかしいと、感性の近いコミュニティにしか理解できなかったり、または他人には理解不能なゴミとなる。このような性質との兼ね合いでリソースとイベントの分離を考えるならば、コンテンツはどちらかといえばイベントである。(リレーショナル脳なあなたのために:リソースをマスターと呼ぶなら、イベントは明細である。マネー脳なあなたのために:リソースをストックと呼ぶなら、イベントはフローである)
しかしリソースとイベントの極端な分離はコンテンツの質(コンテンツの最終消費者である人間にとっての受容性)を下げてしまうし、一方でリソース自体も生き物であるから、イベントとしてのコンテンツも時とともに古くなる。従ってコンテンツは、手を変え品を変え少しだけ新しくなったリソースの埋め込み具合をバランスしながらプロデュースされ続けなければいけない。コンテンツがイベントである以上、これは宿命である。イベントはログに記録されるが、量が無秩序に増えるに従って質は相対的にどんどん減衰していく。(このBlogのエントリだって、いずれ価値を償却される運命のイベントデータに過ぎないわけだ)
Webの世界が膨張を続ける限り、そこにある大量のコンテンツはリソースとしての性質よりもイベントとしての性質を色濃くしていくというのは不可逆の傾向である。このような事実を踏まえると、RESTアーキテクチャ(吉松さんの記事「Webの『正しい』アーキテクチャ」が参考になる)のような理想は、URIの先にあるコンテンツの純度がどんどん下がっているという点を加味すると、それほど切実な問題ではないかも知れないのだ。むしろ、その過程のどこかにある折り返し地点から、思い切ってイベントログを捨てる勇気と技術の方が大切になってくる。
だからこそコンピュータによる検索が大事なのだ、と思ってしまう人は、たぶんここまでの論点をうまく消化できていないと思うので、一度「超整理法」(野口悠紀雄著)あたりをじっくり読んでみて欲しい。Googleで1000位にランクされたコンテンツを一度でも見たことがありますか?そしてそれはすごく価値のあるコンテンツでしたか?
セマンティックWebというコンセプトがずっと生き残っているのは、Webの世界で何かを成し遂げた偉い人たちの言うことだから正しいに決まっていると思い込みたがる民衆心理の亡霊のようなものだ。そんな価値は、少なくとも大々的に吹聴されているような次元では存在しないのである。そろそろ目を覚ましたほうがよい。
左脳的な課題が先決
しかし私自身も様々な標準化に携わる身の上であり、Webコンテンツのメタデータ標準という100年仕事にいずれ取り組んでもよいかなと思ってはいる。とはいえ、それは少なくとも明日のメシの種ではない。老後の楽しみに取っておいても十分間に合うだろう。
今はもっと左脳的な世界、例えば注文書や請求書といった大量のペーパーに記載されたセマンティクスの解釈に人間の脳を使っているというビジネス世界の果てしない無駄(無駄なものを無駄と思わずに忙しい、忙しいといっているのが世の常だが)を解決するための標準化が先行しているし、先にセマンティクスの標準化と実装が成功するのもこちらだろう。私としては、こういった左脳的な無駄をまず撲滅し、それから段階的に右脳的なものの標準化に「適切な度合いで」取り組む方が社会的意義が大きいし、そうしたいと考えている。
このような取り組みを日々行いつつ横目でチラとW3Cを見ていると、そろそろ彼等の時代とその役目の終焉は近いかもなぁと思えてならない。ドロドロしたセマンティックな世界での標準化作業は、論文と純潔の世界に生きる彼等にとっては少々荷が重過ぎるようだ。
さて、あなたはFlashで作られたクールなWebサイトを見て「検索しにくいイヤなサイトだ」と思ってしまう人ですか?
どんどん溜まるメールやブックマークを捨てられない人ですか?
♪ Doobie Brothers / What A Fool Believes
※このエントリは CNET Japan ブロガーにより投稿されたものです。シーネットネットワークスジャパン および CNET Japan 編集部の見解・意向を示すものではありません。
zoffy on 2003/11/23
http://anoh.s10.xrea.com/blog/archives/000200.html#comments に書いたものを貼っておきます。
----
なんかこの人の言っている意味がよくわからないな。セマンティックWebでいうところのメタデータは、グローバルなスタンダードに基づくというか、すべて定義し切るというような必要がないはずなのだけど。
単に、「偉い人の言うことは正しいという民衆心理」て言い回しを使ってみたかっただけなんじゃないか?
それに、ある種の人々にとっては、CNET Japanなんかで書いているっていう人自体もまた偉い人になってしまうわけであり、個々にセマンティックWebを理解/解釈しようと試みるより早く、この意見に同調してしまうことになる。そういう、望ましくない状況に民衆心理を落とし込もうとしているのは、まさにこの人だ。
yuu on 2003/11/21
始めまして、毎回blogを読むのを楽しみにさせていただいております。
今回の題材は、結論については合意できるのですが、一言だけ…
「超整理法」は確かにLRUに基づく捨てる技術そのものなのですが、「超整理法」では、オンラインデータは捨てる必要がないと述べています。野口悠紀雄氏の慧眼に打たれる思いがしました。媒体の記憶容量の増加量が記録の増加量を上回っている限り捨てる必要はないのです。
「超整理法」を読んで以来、私はテキストデータを捨てることをやめました。結果は10年間溜め込んでも古いフォーマットのMO(600MBの容量しかない)1枚分に充分入りきる量です。
徳丸 on 2003/11/19
ブログにコメントするにはCNET_IDにログインしてください。
この記事に対するTrackBackのURL:
コンテンツ市場14兆円の中身と行方
原宿で野宿を含む15時間 - iPhone行列完全ドキュメント
次期インテルチップセットでSLI!
政治資金監査の意見募集等、 2008 年 9 月 1 日締切です
「VMware Fusion 2.0 RC 1 Build 113392」、新たに「McAfee VirusScan Plus」を同梱 etc...
(エンジニアにとっての)モテ論
WEB2.0 じゃなくって PC0.5
taspoの必要性とタバコ屋でのコミュニケーション
@Tovas for AppExchangeのセットアップを30分で完了みんなのお題では、ブロガー同士で質問を出し合いそれに対する回答や意見を集めています。今日はどんな話題が盛り上がっているでしょう?
CNET Japan ブログネットワークは、元はCNET Japanの一読者であった読者ブロガーと、編集部の依頼により執筆されているアルファブロガーたちが、ブログを通じてオンタイムに批評や意見を発信する場である「オピニオンプレイス」、また、オピニオンを交換するブロガーたちが集うソサエティです。
広い視野と鋭い目を持ったブロガーたちが、今日のIT業界や製品に対するビジョンや見解について日々熱く語っています。
CNET Japanやその他サイトが提供するITニュースやコンテンツへの意見や分析、 ビジネスやテクノロジーに対するビジョンや見解について語っていただける方を 募集しています。ご応募はこちらから
ブログの投稿はこちらから(※ブロガー専用)
今年最も活躍したブロガーを表彰します。詳細はこちらから
これは、CNET Japan 編集部の依頼に基づいて執筆されているCNET Japan アルファブロガーによるブログの印です。
CNET Japan ブログネットワーク内で拍手の代わりに使用する機能です。ブログを読んで、感激した・役に立ったなど、うれしいと思ったときにクリックしてください。多くGood!を獲得した記事は、より多くの人に読まれるように表示されます。
[レビュー]高い信頼性を普通に使う地球に優しい電源ユニット--Antec EarthWattsシリーズ EA-650
今週の新製品総チェック:ノート、デスクトップ、UMPCまでPC秋モデルが続々
今週の新製品総チェック:薄さ13.9mmのサイバーショット登場!NEC「LaVie」はデザインモデルが
昨日読んだ橋本大也さんの↓と一寸シンクロしました。
“情報を構造化する方法は5つしかない”というところで。
−それは「情報」ではない
http://www.ringolab.com/note/daiya/archives/000510.html
中味は違うんですけどね。:p