第1回ウェブ学会シンポジウムに行ってきた(午前の部)

 第1回ウェブ学会シンポジウム
 ウェブの世界では国境はないというのに、日本から世界に向けて革命的なサービスは生まれていないのはなぜか?ウェブを取り巻く環境や課題を討論するために企画されたこの第1回ウェブ学会シンポジウムに参加してきました。
 ウェブ学会らしく、会場(東大安田講堂)だけでなく、Ustreamを使っての実況を行ったり、ハッシュタグ#webgakkaiを用いたツイッターによる質問や有志の実況などが盛んに行われているエキサイティングな学会でした。
 Ustreamはすでに視聴可能になっておりますので、リンクを貼って置きます。
Ustream:午前の部

まとめ:第1回ウェブ学会シンポジウムに行ってきた(午後の部−その1)
まとめ:第1回ウェブ学会シンポジウムに行ってきた(午後の部−その2,3)


【開会宣言】松尾豊(東大 准教授)

  • webができて15年。インフラとして存在が大きくなっている。
  • webは国境がない世界なのに、日本発の革新的サービスがない。アメリカばかり
  • world wide web conference,social networks and web2.0
  • webの研究が認められてきたのは2002年ぐらいから。
  • 人工知能学会を始めとしてwebを研究するものがあるが、バラバラである。したがって、web学会がその役割を担う。
    • ?学術とビジネスの連携、?webそのものを対象に、?web時代の学会

【セッション1:ウェブとコラボレーション −創造とコミュニケーションの相転移−】
【ウェブコラボレーションの先端事象】データセクション株式会社 会長 橋本大輔

  • データセクションではデータマイニングを行っている。
  • ブログやテレビを対象としてデータマイニングを研究している。gooddesign賞を獲得した。
  • 自然言語処理人工知能を使って発言者のプロフィールを推測し、層(M1層、F1層等)ごとの話題を分析したりする。
  • 活用方法
    • 炎上するリスクを予想する⇒保険や金融企業に売る。
    • 大ヒットするチャンスを予測する⇒広告代理店やマーケティング部門に売る
  • ”社会的な広がり"がその予兆。
    • 年齢性別等の複数の異なる属性を持つブログに波及し始めたらブレイクする可能性。
  • 集合知
    • コミュニティーがコンテクストを作りコンテンツを生み出す。
    • youtubeでテレビのノイズを淡々と流すだけで、3000pv以上を稼いだ。
    • ⇒コメントの中には「子どもが泣きやみました」などもwww
  • 新しいインキュベータの形 "innocentive"
    • ⇒困難な問題に大して賞金をつけて依頼すると解決してくれる。
    • "idea crossing"も同様
    • P&Gで実例あり。プリングルスの表面に印刷を。
      • ⇒イタリアのパン屋(大学教授)がパンとかに印刷する技術を持っていた。
  • エジソン白熱電球
  • 実例紹介"amazon mehanical turk"
    • ⇒100カ国10万人以上が登録 @1タグ2円とか誤字脱字や同一ページを探したりしてくれる。
    • ⇒もともとは社内の誤字脱字発見の作業だった?
  • 実例紹介"Common Angels"
    • 75人のエンジェルが所属。
      • ?専門家タイプのエンジェル数人が話しを聞く
      • ?次にジェネラリストタイプが話を良く
      • ?最後に全体プレゼンし、そのまま小切手で投票する。
  • "Diversity"と"Communication"が大事
  • コラボレーションとは?
    • 共同作業+α (付加価値)
    • 必然的にコミュニケーションが必要
  • 実例紹介:"Lerning to love you more"
    • コミュニケーションを誘発する指令が載っている。
  • 実例紹介:"iBeatyou"
  • 実例紹介:"43things"
    • 励まいあいながらコミュニケーションを誘発。
  • コミュニケーションにはベタ・メタ・オタが必要

Wikiとコラボレーションの過去・未来】産業技術総合研究所 研究員 江渡 浩一郎

Wikipedia知の構造化東京大学 特任助教 中山 浩太郎

  • コンピュータはなぜ賢くないのか
    • 何が足りないか:一般常識(コモンセンス)の欠如:wordNet,OpenCYC等で試みるも…
    • wikipediaに対する注目度は年々増している。
    • ⇒freebase,PoweSet,DBPedia,Faviki
  • なぜwikipedia
    • 知識そのものを扱う:マイニングに比べてノイズが入りにくい
    • 膨大なコンテンツ量:300万ページ、1億リンク
    • 半構造化データ:インフォボックス、カテゴリツリー、ハイパーリンク
    • 概念とURLが対応
  • wikipediaマイニング:データマイニング+wikipedia
  • 連想シソーラス
    • スパムフィルタ、情報検索、文書要約、音声認識に利用できる
  • pfibfの基本戦略
    • 記事aと記事bの関係性の強さ:パスの多さ、パスの短さ(記事cを通じて、d→eを通じて等)
    • 効率のよい解析手法と分散処理が必要
    • 教師あり学習:一部人間が手作業で分類し、パターン認識させたあとに繰り返し学習させ、分類させる。
  • wikipedia知識を用いた連想検索
    • 検索クエリをシソーラスにかけて類義語を探し出し、類義語をベースにクエリを拡張し、分類の概念を知る?
    • jugarで検索したら、動物と車とレースチームを理解して分類して表示できる。
  • wikipediaの問題
    • 情報の信頼性:情報の判定をどうするか
      • 情報の偏り、不完全性:補完をどうするか
      • 膨大な量の情報:スケーラビリティの問題

【コラボレーションの法的課題】国立情報学研究所 准教授、弁護士 野口 祐子

  • コラボレーションの多様化
    • 個人情報、プライバシーが最もセンシティブ
  • 著作権の起源:ユーゴー:国際著作権学会?
    • Copy(X) = Coprright :ベルヌ条約
    • 19c末:出版社が印刷する部分を保護、人が本を読む部分はフリー(読むのに許可いらない)
    • 20c:写真、映画、音楽が出現するも同様
    • 21c(20c末):webの出現、アウトプット、インプットもコピーライト対象に
  • 意図せざる結果に鳴っている
    • 一つ一つの経済価値は低減中(予算が減る)のにコストは増大中(死んだり、匿名だったり)
    • 権利者・著作物の多様性
    • 商品寿命の違い(小説とソフトウェア)
    • 使い方の違い(音楽とDB)
  • ベルヌ条約は加盟国全員の同意がなければ変えられないから短期的にはすぐに変えられない
    • たとえ時代遅れであっても無理
    • 3ストライク・ルールのフランス
      • ハリウッドを抱えるアメリ
      • アクセスを求める新興国(ブラジル・インド)
  • 対策(1)正しい振り分け
  • 対策(2)ライセンス
    • 禁止しあうのではなく、許諾しあう=ライセンス
    • 法律を変えずに可能
    • 限界:権利者不明著作物にはライセンスをつけられない、ライセンス間の互換性(種類が増えたせいで)
  • 対策(3)例外規定
    • 立法的解決:市場が解決できない問題は立法で。根本を組み直すのはベルヌ的に無理
      • 例外規定を付け加えるのはまだ容易
      • フェア・ユースの概念。
  • 共有と独占のバランス
    • 分野によって時代によって様々
    • 例外規定等によってフレキシブルな対応を

【Q&A】

  • 集合知をうまくするための方法は?

橋本

  • 集合知がうまく行く方が珍しい。無数のコミュニティーの中からいいものだけ選び出される。

江渡

  • 集団的知性と群集の知性:wikiの運用ルールを利用者自信が決めているのが他の集合知と違うところ。

中山

  • システムの成長が必要:本当に誰でもでいいのか、認証は要らないのか。教育が大事。
  • webやwikiのオープンな知識と企業内のクローズな知識。クローズにどのような価値があるか。

中山

  • グローバルの中でもローカル(SNS)なモノにも価値がある。

野口

  • ソースコードのオープンをどうするか。上流を公開した方が下流が豊かになるが、上流から下流まで独占したいという「古い考え方」もある。

橋本

  • 企業経営はローカルな知識が重要。科学はオープンだが。グローバルだからってすべてオープンになるっていう考えの方がおかしい

中山

野口

【「ウェブ研究に求められるもの−課題と期待−」】国立国会図書館 館長 長尾 真

  • 実の世界と虚の世界
    • 実は法律があるが虚には無い
    • 実の世界を虚が取り込む
  • インターネット・アーカイビング
    • 毎月15~20テラバイトの増加
    • Warpという名称で約2500箇所のwebサイトの情報を集めてきた
  • 巨大情報の利用
    • international internet preservation consortium(IIPC)
    • 情報の誕生から成長、減衰、消滅までの間の環境との相互利用、受容のされ方などを含んだ"情報社会の生態学"が必要
    • 1991年情報知識学会誌で発表
  • 電子納本の検討
    • 電子世界のみの出版物は納本してもらいたい
    • そもそも電子出版物とは?出版物とは?チラシも出版物なのか、その境目は?
    • 企業が関係者だけに配るような自社の歴史の本のようなものもぜひ納本してほしい。そうすれば永遠に残る。
  • 課題
    • 差分収集をどうするか、完全性をどうするか、深層ウェブ、リンク、再現可能性
  • メタデータの付与
  • セマンティックウェブ
    • 意味タグをどうつけるか。
    • みんなが発信するものすべてにつけられるとは思えない。
  • 蓄積
    • 将来は集めない情報、すてる情報、類似情報をひとつにまとめ要約するといった知術開発が必要になるだろう。
    • 情報を知識に変換していくことが大切となる。
  • グーグルに頼らない、新しいタイプの検索技術が必要
    • 情報の信頼性をどう確保するか。
    • 情報と知識は違う。が、情報がなければ知識は生まれない
  • wisdomベータ?データ?
    • すべての人が情報の利用者でありクリエータであるのはいいこと。ネット社会の安全性を高める。検索技術の発展。事実検索。