第1回ウェブ学会シンポジウムに行ってきた(午前の部)

　第1回ウェブ学会シンポジウム
　ウェブの世界では国境はないというのに、日本から世界に向けて革命的なサービスは生まれていないのはなぜか？ウェブを取り巻く環境や課題を討論するために企画されたこの第1回ウェブ学会シンポジウムに参加してきました。
　ウェブ学会らしく、会場(東大安田講堂)だけでなく、Ustreamを使っての実況を行ったり、ハッシュタグ#webgakkaiを用いたツイッターによる質問や有志の実況などが盛んに行われているエキサイティングな学会でした。
　Ustreamはすでに視聴可能になっておりますので、リンクを貼って置きます。
Ustream:午前の部

まとめ：第1回ウェブ学会シンポジウムに行ってきた(午後の部−その1)
まとめ：第1回ウェブ学会シンポジウムに行ってきた(午後の部−その2,3)

【開会宣言】松尾豊(東大准教授)

webができて15年。インフラとして存在が大きくなっている。
webは国境がない世界なのに、日本発の革新的サービスがない。アメリカばかり
world wide web conference,social networks and web2.0
webの研究が認められてきたのは2002年ぐらいから。
人工知能学会を始めとしてwebを研究するものがあるが、バラバラである。したがって、web学会がその役割を担う。
- ?学術とビジネスの連携、?webそのものを対象に、?web時代の学会

【セッション1：ウェブとコラボレーション −創造とコミュニケーションの相転移−】
【ウェブコラボレーションの先端事象】データセクション株式会社会長　橋本大輔

データセクションではデータマイニングを行っている。
ブログやテレビを対象としてデータマイニングを研究している。gooddesign賞を獲得した。
自然言語処理と人工知能を使って発言者のプロフィールを推測し、層(M1層、F1層等)ごとの話題を分析したりする。
活用方法
- 炎上するリスクを予想する⇒保険や金融企業に売る。
- 大ヒットするチャンスを予測する⇒広告代理店やマーケティング部門に売る
”社会的な広がり"がその予兆。
- 年齢性別等の複数の異なる属性を持つブログに波及し始めたらブレイクする可能性。
  - 一部に閉じたままではブレイクしない。
  - "参加者の多様性"と"活発なコミュニケーション"があるところにリスクもチャンスも存在している。
  - 参考文献"「多様な意見」はなぜ正しいのか衆愚が集合知に変わるとき
    - ある問題をとくのがどれほど難しいかはその問題を符号化するのに使う観点に左右される"
集合知
- コミュニティーがコンテクストを作りコンテンツを生み出す。
- youtubeでテレビのノイズを淡々と流すだけで、3000pv以上を稼いだ。
- ⇒コメントの中には「子どもが泣きやみました」などもwww
新しいインキュベータの形 "innocentive"
- ⇒困難な問題に大して賞金をつけて依頼すると解決してくれる。
- "idea crossing"も同様
- P&Gで実例あり。プリングルスの表面に印刷を。
  - ⇒イタリアのパン屋(大学教授)がパンとかに印刷する技術を持っていた。
エジソンと白熱電球
- 6000種類探して京都の竹を見つけた。
- 当時は専門知、膨大な思考錯誤が必要だった
- ⇒これからはネットでの呼びかけへ
- 参考文献"クラウドソーシング―みんなのパワーが世界を動かす (ハヤカワ新書juice)"
  - 世界には1日に20~60億時間もの潜在的な労働力が眠っている。
実例紹介"amazon mehanical turk"
- ⇒100カ国10万人以上が登録 @1タグ2円とか誤字脱字や同一ページを探したりしてくれる。
- ⇒もともとは社内の誤字脱字発見の作業だった？
実例紹介"Common Angels"
- 75人のエンジェルが所属。
  - ?専門家タイプのエンジェル数人が話しを聞く
  - ?次にジェネラリストタイプが話を良く
  - ?最後に全体プレゼンし、そのまま小切手で投票する。
"Diversity"と"Communication"が大事
コラボレーションとは？
- 共同作業+α (付加価値)
- 必然的にコミュニケーションが必要
実例紹介："Lerning to love you more"
- コミュニケーションを誘発する指令が載っている。
実例紹介："iBeatyou"
- 競争意欲を刺激する動画共有サイト
実例紹介："43things"
- 励まいあいながらコミュニケーションを誘発。
コミュニケーションにはベタ・メタ・オタが必要

【Wikiとコラボレーションの過去・未来】産業技術総合研究所研究員　江渡浩一郎

誰もがすべてのコンテンツを書き換えられるのになぜうまく行くのか
wikiの歴史はアレグザンダーという建築家が生み出した。
ひとつの建築も都市と同様に作られるべきだ
- 利用者の設計への参加を推進した。
- パターンランゲージ：アーケード、アルコーブなどの一般的なパターンのつながりが言語的
- 70年代に推進したが、現在は行われていない。建築では利用者と建築家の融合ができなかった。
- ケント・ベックとウォード・カニンガムがパターンランゲージのプログラミングへ導入
- ケント・ベックとは：XP：エクストリーム・プログラム人間の本能に根ざしたプログラミング。
- テストファースト、ペアプログラミング、コミュニケーションの重視
2001年にwikipedia開始
- カニンガムのwikiからwikipediaに発展。ソフトウェア的にもカニンガムがもとに鳴っている。
- アレグザンダーの影響：デザインパターン、XP、wiki…
wikiの未来
- 集合知(CGM)
- ?集団的知性：collective intelligence：専門家の知識の集合：エリート主義的な傾向
- ?群衆の知恵:wisdom of crowds:一握りの天才よりも普通の人の多くの知恵が勝る：反エリート主義的な傾向
Goverment2.0
- 政策の過程で集合知。政府はデータを集め公開し、市民が関与する。
- CiNii(日本)
- wiki政府
- 実現にあたっての課題は人々の意識：ケネディー、老子
アレグザンダーはパターンランゲージで共同創作
- それがデザインパターンや、xp、ウィキへ発展
- 集合知による政策実現は課題は多くある

【Wikipediaと知の構造化】東京大学特任助教　中山浩太郎

コンピュータはなぜ賢くないのか
- 何が足りないか：一般常識(コモンセンス)の欠如：wordNet,OpenCYC等で試みるも…
- wikipediaに対する注目度は年々増している。
- ⇒freebase,PoweSet,DBPedia,Faviki
なぜwikipedia
- 知識そのものを扱う：マイニングに比べてノイズが入りにくい
- 膨大なコンテンツ量：300万ページ、1億リンク
- 半構造化データ：インフォボックス、カテゴリツリー、ハイパーリンク
- 概念とURLが対応
wikipediaマイニング：データマイニング+wikipedia
- 翻訳辞書、連想シソーラス、webオントロジ(関係性をとる)、wikipediaAPI、セマンティックweb
連想シソーラス
- スパムフィルタ、情報検索、文書要約、音声認識に利用できる
pfibfの基本戦略
- 記事aと記事bの関係性の強さ：パスの多さ、パスの短さ(記事cを通じて、d→eを通じて等)
- 効率のよい解析手法と分散処理が必要
- 半教師あり学習：一部人間が手作業で分類し、パターン認識させたあとに繰り返し学習させ、分類させる。
wikipedia知識を用いた連想検索
- 検索クエリをシソーラスにかけて類義語を探し出し、類義語をベースにクエリを拡張し、分類の概念を知る？
- jugarで検索したら、動物と車とレースチームを理解して分類して表示できる。
wikipediaの問題
- 情報の信頼性：情報の判定をどうするか
  - 情報の偏り、不完全性：補完をどうするか
  - 膨大な量の情報：スケーラビリティの問題

【コラボレーションの法的課題】国立情報学研究所准教授、弁護士　野口祐子

コラボレーションの多様化
- 個人情報、プライバシーが最もセンシティブ
著作権の起源：ユーゴー：国際著作権学会？
- Copy(X) = Coprright :ベルヌ条約
- 19c末：出版社が印刷する部分を保護、人が本を読む部分はフリー(読むのに許可いらない)
- 20c：写真、映画、音楽が出現するも同様
- 21c(20c末)：webの出現、アウトプット、インプットもコピーライト対象に
意図せざる結果に鳴っている
- 一つ一つの経済価値は低減中(予算が減る)のにコストは増大中(死んだり、匿名だったり)
- 権利者・著作物の多様性
- 商品寿命の違い(小説とソフトウェア)
- 使い方の違い(音楽とDB)
ベルヌ条約は加盟国全員の同意がなければ変えられないから短期的にはすぐに変えられない
- たとえ時代遅れであっても無理
- 3ストライク・ルールのフランス
  - ハリウッドを抱えるアメリカ
  - アクセスを求める新興国(ブラジル・インド)
対策(1)正しい振り分け
- 特許法：単なる発見なのか特許なのか(産業に応用できるか)
- 著作権法：事実、アイデアか創造か
- 個人情報保護法
- アメリカ著作権法の強化と同時にイノベーションのための共有も進めている
  - 科学とハリウッドは違う力学で動いている
  - オープン・データ・ポリシー
    - アイデアに近い知識は公開しよう
    - 活用したモノは特許や著作権で保護しよう
    - 日本はその仕組がない
対策(2)ライセンス
- 禁止しあうのではなく、許諾しあう=ライセンス
- 法律を変えずに可能
- 限界：権利者不明著作物にはライセンスをつけられない、ライセンス間の互換性(種類が増えたせいで)
対策(3)例外規定
- 立法的解決：市場が解決できない問題は立法で。根本を組み直すのはベルヌ的に無理
  - 例外規定を付け加えるのはまだ容易
  - フェア・ユースの概念。
共有と独占のバランス
- 分野によって時代によって様々
- 例外規定等によってフレキシブルな対応を

【Q&A】

集合知をうまくするための方法は？

橋本

集合知がうまく行く方が珍しい。無数のコミュニティーの中からいいものだけ選び出される。

江渡

集団的知性と群集の知性：wikiの運用ルールを利用者自信が決めているのが他の集合知と違うところ。

中山

システムの成長が必要：本当に誰でもでいいのか、認証は要らないのか。教育が大事。

webやwikiのオープンな知識と企業内のクローズな知識。クローズにどのような価値があるか。

中山

グローバルの中でもローカル(SNS)なモノにも価値がある。

野口

ソースコードのオープンをどうするか。上流を公開した方が下流が豊かになるが、上流から下流まで独占したいという「古い考え方」もある。

橋本

企業経営はローカルな知識が重要。科学はオープンだが。グローバルだからってすべてオープンになるっていう考えの方がおかしい

どういった分野とのコラボ橋本：ダイバーシティーアンドインクルージョン。取り込むことも重要。ただ存在しているだけでなく。

中山

脳科学とコラボしたい。人工知能だからってのもある。学習とか。金銭的インセンティブなしで参加する理由を知りたい。

野口

DRMの強化を立法がアメリカで検討中。

【「ウェブ研究に求められるもの−課題と期待−」】国立国会図書館館長　長尾真

実の世界と虚の世界
- 実は法律があるが虚には無い
- 実の世界を虚が取り込む
インターネット・アーカイビング
- 毎月15~20テラバイトの増加
- Warpという名称で約2500箇所のwebサイトの情報を集めてきた
巨大情報の利用
- international internet preservation consortium(IIPC)
- 情報の誕生から成長、減衰、消滅までの間の環境との相互利用、受容のされ方などを含んだ"情報社会の生態学"が必要
- 1991年情報知識学会誌で発表
電子納本の検討
- 電子世界のみの出版物は納本してもらいたい
- そもそも電子出版物とは？出版物とは？チラシも出版物なのか、その境目は？
- 企業が関係者だけに配るような自社の歴史の本のようなものもぜひ納本してほしい。そうすれば永遠に残る。
課題
- 差分収集をどうするか、完全性をどうするか、深層ウェブ、リンク、再現可能性
メタデータの付与
- ダブリンコアにそったメタデータの付与
- ダブリンコア：titleとかの情報付与。
セマンティックウェブ
- 意味タグをどうつけるか。
- みんなが発信するものすべてにつけられるとは思えない。
蓄積
- 将来は集めない情報、すてる情報、類似情報をひとつにまとめ要約するといった知術開発が必要になるだろう。
- 情報を知識に変換していくことが大切となる。
グーグルに頼らない、新しいタイプの検索技術が必要
- 情報の信頼性をどう確保するか。
- 情報と知識は違う。が、情報がなければ知識は生まれない
wisdomベータ？データ？
- すべての人が情報の利用者でありクリエータであるのはいいこと。ネット社会の安全性を高める。検索技術の発展。事実検索。