第1回ウェブ学会シンポジウムに行ってきた(午後の部−その2,3)

第1回ウェブ学会シンポジウム
Ustream:午後の部-その2
Ustream:午後の部-その3

まとめ:第1回ウェブ学会シンポジウムに行ってきた(午前の部)Comments
まとめ:第1回ウェブ学会シンポジウムに行ってきた(午後の部−その1)Comments

【政治におけるネットの役割】川邉 健太郎 株式会社Gyao代表取締役

  • Yahoo!みんなの政治について
    • 経歴だけでなく、これまでの議案についてそれぞれコメントし、賛成反対がわかるようにしている。
    • 国民(ユーザ)は議員を評価する。ユーザはYhaooのプレミアム会員のみ。
    • 政治記事の読み比べもできるようにしている。
    • 政治専門のサイトとしては日本最大。1000万pv
    • 2006年がyahoo10周年記念として作った。

【ウェブが支える社会と科学の相互作用】楠 正憲:マイクロソフト技術部 部長

  • これまでいろんなデバイスが出てきたが、まだ連携出来ていない。
  • バイスはいろいろ出たが、ユーザインタフェースが変わっていない。
  • 国家レベルでグレートファイアーウォールを作らなくてはならないのか。

Q:web推進に対して
川邉

  • googleだって大変なはずだ。競争という概念ではない。

  • 会社が社会に受け入れられるために何ができるか。
    • 独禁法とかの壁にぶち当たった時に、どう社会に貢献してきたか。
    • googleもそろそろそこに入っている。
    • googleストリートのカメラの高さは民法153条ぐらいの「許可無く2m以上の壁を作ってはいけない」に触れてしまった。これまできっと電気通信事業法とかプロバイダ責任制限法とかは見てきたはずだが流石に民法まですべてチェックはできなかったんだろう。でも、今後はそこまで求められる。社会が技術に追いついていない。

【サーチとインタラクション】中村 聡史:京都大学 特定准教授

  • 人に注目した研究(webox webp2p)
  • enegybrowser運動支援のためのwebブラウザ
  • 実況チャットに基づく動画のダイジェスト生成
  • web条の膨大な情報にどうかかわるか
  • 各種サーチはユーザの意図を満たせているか?
  • 検索意図
    • 美味しい料理が食べたい
    • コンテキスト
      • お腹がすいてる。どこどこの近く
    • プロファイル
      • 日本人だ
      • でもクエリは「どこどこ レストラン」で伝えきれない。
    • 複雑なクエリを作るのは大変
  • ユーザとサーチサービスの橋渡しが必要
    • サーチにインタラクションやソーシャルサービスのクエリを追加する。
    • 検索に大して、インタラクティブに追加・削除する。
    • ハイライトして追加か削除するだけでいい。
    • あるいはタグクラウドから選択
    • amazonでもなんでも応用可
    • google scarであれば、引用数なんかで昇順降順にできる。
    • niconicoであればコメント数など。
  • SBSerch
    • SBSを用いたサーチ
    • niconicoのコメントからannotation(感情)を読み取る。
  • 緩和検索
    • 単語に?をつけて「かな?」を表現:京都 豆腐? 和食
      • 豆腐に?をつけることで湯葉とか湯豆腐とかを出るように。
  • オノマトペロリ
    • ふわふわの卵料理とかピリっとしたナス料理等
  • 挟み込み検索
    • aよりは何何でbよりは何々でみたいな。
  • webrowserch
    • ブラウジングとサーチの融合
      • 見ているページの関連を勝手に検索
  • 橋渡しをしたい。情報到達容易性とインタラクションのモデルの擁立世界に影響を与えるには
    • レイヤごとの競争ではなく、レイヤ間の協力を
    • 交流が重要

【ブログから社会と個人の変化を知るーブログ検索エンジンの研究開発についてー】稲垣 陽一:株式会社 きざしカンパニー CTO
きざし.jp

^メガネっこ現象

    • これでメガネの印象とかが変わった。それを見れないか。
  • 要素技術
  • 時系列的に単語とその結びつきが見れる。
    • 予想ブログから予想を
    • 競馬の予想ブログをそれぞれ過去の実績から重み付けをして集計
    • 結構当たるけど、仕組み上、大穴がでない。
  • blogram.jp
    • ブログを解析してブログ主に気づきを与える。
    • ブログの見所とかを見れる。

【ウェブから作る人工知能】ボッレーガラ ダヌシカ:東京大学 研究員

  • 人工知能としてのweb
    • 永遠の課題
      • どのように機会に教えるか
    • 知識ベースを作る
      • 手動で?自動で?
    • semantic web
      • entityとentityのつながり
  • webから関係抽出の課題
    • 非構造的データが多い(自然言語で抱えれた文章)
    • 矛盾があったり一貫性がなかったり
    • データのノイズ(スペルミスとか新語とか)
    • すべて処理できない
    • 複数のentityが同一の名称で参照されることも(同姓同名問題)
    • 同一のentityが別の名称で参照される(別名問題・ゴジラと松井)
  • entity類似性と関係の類似性
    • ジャガーと猫
    • ダチョウと鳥(ダチョウは最大の鳥)、ライオンと猫(ライオンは最大の猫)
      • 最大の◯◯が関係性
  • 関係類似性の計測
    • web検索を行い、ヒット件数み見て、単語ペアがどのように語られているか
    • クラスタリングから特徴量を計算し距離を学習する。
  • 関係類似性の応用
    • 人間と同等の関係性を発見出来ている

【ウェブデータを使った統計的自然言語処理】工藤 拓:グーグル株式会社

  • google日本語入力の人
  • webマイニングの応用である。
  • webを使った統計的自然言語処理
    • 大量の言語データを用いた統計的言語処理がさかん
      • vs人での言語知識を構築する
    • In google
      • クロール済みの大量のウェブデータが対象
      • webでスケールすることが重要
  • MapReduce
  • 言語モデル
    • n-gram言語モデル
      • 任意の単語数でヒットする数をもとに日本語らしさを評価
      • ゼロ頻度問題
        • 言語データに出現しなかったn-gramの頻度は0でいいのか?
        • 補正(スムージング)が必要:強引に全部0.3を足してみたり
        • いろいろなスムージング法
          • kneser-Ney:計算量が多い
          • Stupid Backoff:精度はそこそこだけどシンプル
          • 実際にやってみたときに、母数が多いとほとんど変わらない。
          • それどころかKN法だとある時を境に計算不能に…
          • 計算時間はウェブデータならKNではやってられない。
          • googleでは最適な計算手法を選択する必要がある。
    • モデルの圧縮
      • webベースのモデル・辞書は巨大
        • ローカルPCだと制約がキツイ
        • データを効率良く圧縮
        • それでいて、辞書引きの速度は高速でありたい。
      • エラーを許容したデータ圧縮(randomized algorithm)
  • まとめ
    • 処理の対象がwebになっただけ
    • データの量で勝負
    • 運用上のノウハウ
      • 並列計算
      • 凝ったアルゴリズムを用いない
      • データの効率の良い圧縮


【10年にわたる国内ウェブアーカイブを用いた社会分析】豊田 正史:東京大学 准教授

  • slコマンドを作成した
  • 実社会の射影としてのweb
  • 今は100億ページの日本語ウェブページを貯めている。
    • 貯めるだけでなく、解析を行う。
  • web空間の構造俯瞰
    • gooとyahooとgoogleをまとめてみたり。
    • クラスタごとの関係性が見えてくる
  • webの時系列分析
    • 合併した銀行が出現。
  • 企業は自社の近くを見たがる。
    • ニーズに合わせて日単位で見れるようにした。
    • ワーキングプアという単語を最初に出したのは何なのか
      • 時系列で作っているのでNHKであることがわかる。
      • 話題の最初がわかる。
  • 検索エンジンスパム
    • 強連結成分解析
    • スパムがどのようにリンクファームを作っているか
      • 目標のサイトに大して群がるように「芸術的な」形でリンクを形成
      • これも収集しているから
  • ズーミングインタフェース
    • 大規模グラフをオンラインで階層化
  • まとめ
    • 検索エンジンとsocio-senseの違い
      • 検索エンジンは今を
      • socio-senseは過去から現在に至るウェブの変遷を
    • socio-sense
      • 大規模なウェブの構造俯瞰
      • web構造の時系列変化の追跡
      • ウェブスパムの分析
      • 大規模可視化
      • 大規模自然言語処理

【コンシューマ向けウェブサービス企業におけるサイエンスへの取り組み】伊藤直也はてな CTO

  • 計算機科学の成果を取り込んだ機能開発
  • ユーザーへの記事推薦
    • PFIのリコメンドエンジンbayesian sets
  • はてブの記事のカテゴリ分け
    • 機械学習してパターン分けして
    • complement naive bayes
    • スタッフらが一部やってあとは自動
  • はてブ全文検索
    • 全記事横断
      • PFIのSedue
      • compressed suffix Arrays
    • 各ユーザ毎
      • 自社開発
      • オーソドックスな転置検索
    • スコアリングのアルゴリズムを工夫
  • うごメモはてな
    • 規約違反の動画を学習データから自動判定
      • 動画の途中に差し込まれても対応可能
  • ウェブアプリケーションは技術的には掲示板の延長線
  • はてなは2000年半ばごろまで
  • データが増加してきて
    • 富豪的な手法では解決できない
    • データの再利用性が困難
      • 集めた大量のデータを有効活用できていない
      • はてブの昔のブクマを活かせない。
    • ウェブアプリケーション開発の一歩先へ
      • ブックマークの関連エントリー開発
      • 理論を製品に結びつけて、エンドユーザの満足を得るまでに
      • 大きな壁があることを実感
        • 理論の実装をプロダクション環境のシステムに消化させる実装
          • C++のライブラリ実装をPerlのメインシステムとどうつなげるか
        • ユーザへのアウトプット・見せ方をどうするか。
  • 技術を製品化する
    • プロダクトアウトになりがち
      • プロダクトマネージャーの存在が必要
    • 商品化されるあで
      • 1理論、2実装、3製品への組み込み、4エンドユーザ向けへの仕上げ
      • PMは1~4が正しく実行されていることをファシリテートする
  • まとめ
    • マーケットイン、プロダクトアウト両方の視点からせめて製品が作れるユニークな会社に
  • 将来はR&Dへの投資も
    • まだそのフェーズではない。

Q:日本から世界に向けてサービスを発信して良くには?

中村

  • 人に注目してどう使っていくか。
    • 発表するときに、その先を考えること、発表したものを発展させれるか

稲垣

  • シンクロが大事。世界的に見る。戦争している国同士がこんなところでシンクロとか
  • ブリンのマインドは「チャンスがあるならやろうよ」の精神

ダヌンカ

  • 誰も考えていないアプリケーションや課題が出てくる。
  • 面白い情報源からどういうことができるか、10年先を考える。

工藤

  • オープンソースでもなんでも英語のドキュメントをちゃんとかく
  • 英語のマニュアルを書くと反応が違う。95%が英語だった。
  • ショートタームのゴールとロングタームのゴールを
    • 自然言語処理は10年ぐらいかかってやるものもあれば、1年で変わるものもある。
    • 両方をバランスよく

豊田

  • 環境が大事
    • 周りに同じ研究をしている人がいるか
    • いまはついったーがあるからいい。

はてな

  • シリコンバレーに行くだけではダメだった(笑)
  • 最初から国際化を念頭に入れておくのは大事
  • 日本のwebビジネスは転換期
    • スマートフォンが主役になてきた
    • 日本はケータイばかり
    • どちらをとるのかを考えるときに世界を目指すならスマートフォン
    • そういう見極め方を考えておく。

【閉会】
早大 山名早人

  • webが世界に現れて15年
  • 日本には無い
  • ウェブ学会を
  • 様々な分野との連携がキーワードだった。
    • 多様性
    • 国内のコラボレーションがまだまだ
    • 次世代の新しいコラボレーションを