私たちは情報を識別する時に視覚的要素や過去の経験や知識を用いて自動的に情報の意味を判断することがあります。例えば新聞の1面を開いた時、どの範囲がひとかたまりの記事であるとか、どれが広告でどれが新聞名であるとか、文字を読まなくても判断できます。それが日本語で書かれていなくても、例えば英語やベトナム語であっても、「文字読めないけどこれがヘッドライン」などと推定を立てることができるわけです。
しかしながら視覚情報や知識や経験といったものに頼れない検索エンジンはそうはいかないのです。あるページを開いたとき、人間であれば明らかに「これは主トピックではない」といった情報も検索エンジンにはあたかもそれが重要な言葉のように捉えてしまい、検索クエリに対してまとはずれな答え(ページ)を表示してしまうことは多々あります。

例えばGoogleニュース検索で「アイレップ」と検索すると3番目(2007年5月6日18時45分時点)に「日本最大級のアフィリエイトネットワーク!A8.net」というタイトルのページがヒットします。でもクリックするとファンコミュニケーションズさんのホワイトペーパーライブラリーのページ。全然「アイレップ」とは関係ないのですが、何故検索にヒットするかというと主コンテンツとは関係ないエリアにアイレップという文字列があり、Googleがそれをこのページと関連づけてしまっているからです。
これはCNET Japanのソースコードの書き方が悪いとも言えるし、Googleのアルゴリズムの処理の仕方にも問題があるとも言えるのですが、どっちが悪いにせよユーザの検索要求に適切に答えているとはいえないことは確かです。
結局のところ、検索エンジンはページ上の情報において、どれが重要でどれが重要でないのか、完璧に把握する技術を持っていないからこうした問題が起こります。この課題に対して検索エンジンもチャレンジをしています。例えばマイクロソフトは「VIPS: a Vision-based Page Segmentation Algorithm」(論文)という論文を発表しているのですが、これはページの情報をセグメントに区切り、ページ上の主トピックを特定しようという技術的アプローチです(少なくとも日本語環境において上手くいっているとは思えないけれども)。フッターやヘッダーくらいならパターンマッチングである程度スコアリングのさじ加減はできるでしょうが、それ以上の情報を取り扱おうとすると難しいわけです。
前置きが相当に長くなりましたが、米Yahoo!が5月2日に発表したRobots-Nocontent属性(タグ)はこうした問題を解決するためのサイト運営者側で対応する方法の1つです(Yahoo!ガイドライン:How do I mark web page content that is extraneous to the main unique content on the page?。要は、検索エンジンにインデックスさせなくていい(無視していい)情報エリアを"Robots-Nocontent"でマークアップしてあげると、Yahoo!はそれを検索対象から除外してくれます。
通常Webページは主コンテンツ以外にもヘッダーやフッター、ナビゲーションリンク、広告エリア、サブコンテンツ、キャンペーン告知などなどページの主トピック以外の情報を数多く持っているものです。先日の記事「ヤフーにとってマイクロソフトは魅力的か?」のページを見ても、右側には他のCNETブログ皆様の最新エントリー一覧や、ニュースリリースのリンク、レビューなど、ヤフーとマイクロソフトの交渉とは全く関係ない情報はたくさんあります。こうした情報をRobots-Nocontentで囲ってあげることで、これらは重要でない情報であることをYahoo!に伝えられると同時に、どれが主コンテンツ(検索対象にしてほしいコンテンツ)であるかも明示できるようになるのです。
Yahoo!も色々とフィードバックを得ながら検討した結果リリースしたようですが、これは確かに面白そうです。しかしながら、果たしてサイト運営者は今後Webページを作っていく上でこれを導入していくか?となると未知数です。
きっと今これにすぐ取り組むことでメリットを享受できるサイト運営者は、ものすごく膨大なコンテンツを持っているけれどもHTMLソースコードがものすごく汚くてSEO対策も不十分なためにページと全く関係ないキーワードでよく検索にヒットさせてしまっているようなケースなのでしょうが、そういう人ってなかなかいないと思います。Google、Yahoo!、Microsoftが共同歩調をとったけれども微妙な存在の rel=nofollow(リンクを無視させるための属性)とは違って別の問題を引き起こすような性質はないものの、導入しなければいけない必然性が欠けています。
GoogleやMicrosoftもサポートを開始すると話は変わってくるのでしょうが、現状はYahoo!オリジナルのものですから様子見といったところでしょうか。最もこうしたことは試してみないとわからないことが多々ありますから、サーチマーケティングに関心ある方は試しに取り組んでみたらいかがでしょう。CMSでテンプレートを操作できるなら導入は簡単だと思います。
※このエントリは CNET Japan ブロガーにより投稿されたものです。シーネットネットワークスジャパン および CNET Japan 編集部の見解・意向を示すものではありません。
ネットワーク型産業構造への衣替え?
iPhonista Nightの事後報告
オトナになるということ
福祉国家の失敗〜40年前の「断絶の時代」を読む(3)
公共団体のMSへの依存A会津若松市や島根に勇気!!
さあ来い!Silverlight 2
シュワ
オンライン広告は2012年に2兆円市場にーリーマンブラザース予測
「VMware Fusion 2.0」にて利用可能な「Automator」アクションみんなのお題では、ブロガー同士で質問を出し合いそれに対する回答や意見を集めています。今日はどんな話題が盛り上がっているでしょう?
エンタメCGM「gooメーカー☆メーカー」CNET Japan ブログネットワークは、元はCNET Japanの一読者であった読者ブロガーと、編集部の依頼により執筆されているアルファブロガーたちが、ブログを通じてオンタイムに批評や意見を発信する場である「オピニオンプレイス」、また、オピニオンを交換するブロガーたちが集うソサエティです。
広い視野と鋭い目を持ったブロガーたちが、今日のIT業界や製品に対するビジョンや見解について日々熱く語っています。
CNET Japanやその他サイトが提供するITニュースやコンテンツへの意見や分析、 ビジネスやテクノロジーに対するビジョンや見解について語っていただける方を 募集しています。ご応募はこちらから
ブログの投稿はこちらから(※ブロガー専用)
今年最も活躍したブロガーを表彰します。詳細はこちらから
これは、CNET Japan 編集部の依頼に基づいて執筆されているCNET Japan アルファブロガーによるブログの印です。
CNET Japan ブログネットワーク内で拍手の代わりに使用する機能です。ブログを読んで、感激した・役に立ったなど、うれしいと思ったときにクリックしてください。多くGood!を獲得した記事は、より多くの人に読まれるように表示されます。
今週の新製品総チェック:新PS3が登場!ニコンが発表した映像製品「UP」とは?
[レビュー]2011年画質を備えた高画質、多機能Blu-ray--ソニー「BDZ-X95」
今週の新製品総チェック:よりモバイルPCとして進化した「Let's note」が登場
今週の新製品総チェック:フルサイズCMOS搭載のキヤノン「EOS 5D Mark II」が登場
今週の新製品総チェック:第4世代iPod nano登場、ソニー「α」、松下「LUMIX」に新機種も