第7回WI2研究会開催報告 | WI2研究会

2015年11月28日(土)・29日(日)に，リクルート本社（東京都千代田）にて第7回WI2研究会を開催致しました．一般発表は，ロング発表・ショート発表合わせて21件の発表がありました．

内容は，情報推薦・プロファイリング, SNS分析, ツール・Webシステム, 評判分析, 情報検索, 地方活性化・観光などでした．また，招待講演では，「不揃いなデータ達の分析を行う前のTips」をテーマに取り上げ，吉田光男先生（豊橋技科大），伊川洋平様（IBM基礎研），佐々木一先生（東大）にご講演いただきました．参加者数は100人でした．懇親会は，おしゃれなイタリア料理店で行いました．

→プログラム　 →特別講演　 →表彰　 →副座長報告　 →学生参加報告　 →運営委員会

日時・会場

日時:	2015年11月28日（土）9:50～18:30 2015年11月29日（日）10:00～18:00
会場:	株式会社リクルートホールディングス　本社グラントウキョウサウスタワー41F　アカデミーホール（〒100-6640 東京都千代田区丸の内1-9-2） http://www.recruit.jp/company/office.html

アルバム

一般発表の様子です	質疑応答の様子です
一般発表の様子です	一般発表の様子です
吉田光男氏の招待講演です	伊川洋平氏の招待講演です
佐々木一氏の招待講演です	パネル討論の様子です
懇親会の様子です	懇親会の様子です
懇親会の様子です	懇親会の様子です
優秀研究賞の表彰です	萌芽研究賞の表彰です
学生奨励賞の表彰です	懇親会後の集合写真です

プログラム

発表時間: ロング 30分，ショート 18分

■11月28日（土）（9:30～受付）
9:50-10:00	開会の挨拶
10:00-11:40	セッション１情報推薦とプロファイリング座長: 奥健太（立命館大学）副座長: 熊本忠彦（千葉工業大学）（ロング発表） 1　飲食店向け不動産営業を支援する申し込み顧客推薦システムの提案☆ 　　河村一輝，諏訪博彦，荒川豊，安本慶一(奈良先端科学技術大学院大学) 2　位置情報履歴の欠損と周期性を考慮したパターン抽出手法　　林亜紀，亀岡弘和，松林達史，澤田宏（日本電信電話株式会社）（ショート発表） 3　企業Webページを用いた関連企業の抽出☆ 　　本間友実子，酒井浩之，坂地泰紀(成蹊大学) 4　継続的な使用を想定した散歩経路推薦システムの提案　　高間康史，佐々木渉（首都大学東京）
11:40-13:00	昼休憩
13:00-15:00	セッション２特別セッション「不揃いなデータ達の分析を行う前のTips」司会：杉原太郎（岡山大学），榊剛史（ホットリンク）講演者：吉田光男（豊橋技術科学大学），伊川洋平（日本IBM），佐々木一（東京大学）
15:00-15:15	休憩
15:15-17:00	セッション３ SNS分析座長: 山西良典（立命館大学）　副座長: 大塚真吾（神奈川工科大学）（ロング発表） 5　ユーザ投稿型レシピサイトにおける酷似レシピクラスタ提示手法の提案☆ 　　花井俊介（甲南大学大学院），難波英嗣（広島市立大学），灘本明代（甲南大学）（ショート発表） 6　スクリーンネームを用いたユーザの投稿活動率の推定手法に関する一検討☆ 　　武田悠佑，山本修平，佐藤哲司(筑波大学) 7　Twitterユーザの投稿場所を考慮した職業属性の推定☆ 　　武田直人，関洋平（筑波大学） 8　Twitterからの天気との食べ物の関係性抽出☆ 　　伊藤拓，深澤佑介，太田順（東京大学） 9　平成27年9月関東・東北豪雨時のツイート分析☆ 　　遠藤岳，内田理（東海大学）
17:00-17:15	休憩
17:15-17:55	セッション４ツール・Webシステム座長: 梶並知記（神奈川工科大学）　副座長: 村上晴美（大阪市立大学）（ショート発表） 10　別称辞書自動生成ツール：ANDitのオープンソース化　　山西良典，福本淳一（立命館大学） 11　シャフル表現によるWebシステム動作系列の記述　　阿部真也（地方独立行政法人東京都立産業技術研究センター）
18:30-20:30	懇親会
■11/29（日）（9:40～受付）
10:00－11:20	セッション５評判分析座長：越智洋司（近畿大学）　副座長：湯本高行（兵庫県立大学）（ロング発表） 12　可視化を目的とした非典型度と評価極性に基づくカスタマーレビューのクラスタリング☆ 　　古橋慎之介(東海大学大学院），内田理（東海大学) 13　評判情報サイトにおける集合知を用いた製品／サービスの価値推定- 粒子フィルタを用いたユーザ評価からの価値推定手法の開発 -☆ 　　高橋梓，山田和明（東洋大学）（ショート発表） 14　単語の分散表現を用いた意見文クラスタリングに対する一考察　　平野真理子，榊剛史，小早川健（株式会社ホットリンク）
11:30－12:10	セッション６情報検索座長：林亜紀（NTT）　副座長：深澤佑介（ドコモ）（ショート発表） 15　 Multimodal Extreme Learning MachineによるWikipedia記事のマルチモーダル検索　　立間淳司，青野雅樹（豊橋技術科学大学大学院） 16　シラバスデータを活用した書籍検索手法の検討　　越智洋司(近畿大学理工学部)
12:10-13:30	昼休憩
13:30-14:30	セッション７地方活性化・観光 I 座長：関洋平（筑波大学）　副座長：北山大輔（工学院大学）（ロング発表） 17　NGA2015におけるユーザの情報収集と回遊行動の分析　　風間一洋（和歌山大学大学院），谷直樹，榊剛史（株式会社ホットリンク），吉田光男（豊橋技術科学大学） 18　重力モデルとTF-IDFを用いたジオタグ付きTwitterデータからの観光地抽出と魅力の評価☆ 　　前田高志ニコラス（東京大学大学院），吉田光男（豊橋技術科学大学），鳥海不二夫（東京大学大学院），大橋弘忠（東京大学大学院）
14:30-14:45	休憩
14:45-15:55	セッション８地方活性化・観光 II 座長：風間一洋（和歌山大学）　副座長：櫻井茂明（東芝ソリューション株式会社）（ロング発表） 19　外国人観光客に向けたTwitterユーザの地域別推薦の評価☆ 　　田中匠（筑波大学大学院），関洋平（筑波大学) （ショート発表） 20　地域の認知と評価の集合知としてのSALoT マップ2-場所の特徴的イメージを表す写真やコメント要約のランキング- 　　大森宏（東京大学），羽生和紀（日本大学），山下雅子（東京有明医療大学） 21　地域ユーザに着目した口コミツイートの拡張☆ 　　長島里奈，関洋平(筑波大学)
16:10-16:40	セッション９技術報告座長：土方嘉徳（大阪大学）　22　不動産物件データを用いた研究開発事例，および産学連携強化の取り組みの紹介　　清田陽司（株式会社ネクスト）
16:40-17:00	表彰式・クロージング

招待講演：「不揃いなデータ達の分析を行う前のTips」

司会：

杉原太郎（岡山大学），榊剛史（ホットリンク）

企画趣旨：

Web上のデータを用いて様々な研究やビジネスを行う流れが加速している．様々な分野で，Web上のデータを用いて分析をしようと試行錯誤が行われている．今後しばらく，この流れはとどまらないであろう．あまり議論されていないにもかかわらず，データ分析を行う上で非常に重要なことはデータをどのように前処理するかということである．
Web上のデータが持つ特色の一つは，データが不揃いなことである．多種多様なデータがWeb上には存在するが，それを自らが知りたいことのために用いようとすればデータの整形・加工が必要となる．本企画では，Web上のデータの前処理に関するノウハウを，学術およびジビネスの分析専門家から紹介いただき，分野全体を前進させるために共有することを目的とする．参加者の理解を促進することを第一の目的に据える．通常のチュートリアルと異なり，講演のみならず質疑応答の時間を長めに設定する．

講演者（敬称略）

・吉田光男（豊橋技術科学大学）
Webマイニングを行うには，Web上から様々な情報をクロールし，それを分析しや
すい形で蓄積する必要がある．このようなWeb上の情報のクロール・蓄積につい
て気をつけるべき点・工夫すべき点について紹介する．

・伊川洋平（日本IBM）
ソーシャルメディア分析は位置情報を扱うことで，分析の幅が大きく拡がる．本
講演では，ソーシャルメディアとそれに付与された位置情報を扱う上で注意・考
慮すべき点について説明する．→ [スライド]

・佐々木一（東京大学）
Webデータに留まらず多様なデータを扱えることは分析の幅を広げる一方で，不
慣れなデータの前処理がプロセス上のボトルネックとなる．前処理の位置付けに
ついて認識を共有し多角的に議論したい．

表彰

WI2研究会では，出席したWI2委員全員により，全ての発表の聴講と評価を行っております．今回，各賞を受賞された研究は以下のようになります．

優秀研究賞
位置情報履歴の欠損と周期性を考慮したパターン抽出手法
　林亜紀，亀岡弘和，松林達史，澤田宏（日本電信電話株式会社）

萌芽研究賞
NGA2015におけるユーザの情報収集と回遊行動の分析
　　風間一洋，谷直樹（和歌山大学大学院），榊剛史（株式会社ホットリンク），吉田光男（豊橋技術科学大学）

学生奨励賞
重力モデルとTF-IDFを用いたジオタグ付きTwitterデータからの観光地抽出と魅力の評価
　前田高志ニコラス（東京大学大学院）
　（共著者）吉田光男（豊橋技術科学大学），鳥海不二夫（東京大学大学院），大橋弘忠（東京大学大学院）

飲食店向け不動産営業を支援する申し込み顧客推薦システムの提案
　河村一輝 (奈良先端科学技術大学院大学)
　（共著者）諏訪博彦，荒川豊，安本慶一 (奈良先端科学技術大学院大学)

副座長報告

セッション1：情報推薦とプロファイリング
　副座長: 熊本忠彦（千葉工業大学）
1件目のロング発表では、飲食店向け不動産の営業において、成約の見込みがありそうな顧客を推薦するシステムが提案された。具体的には、内見後のアンケート調査の結果に基づく特徴量（第一印象、立地、月額賃料、譲渡価格、取得総額、事前調査の有無）、物件情報に基づく特徴量（月額賃料、床面積、駅徒歩、階数、居抜き、お気に入り）、アクセスログに基づく特徴量（開店意欲〔量〕、開店意欲〔期間〕）、当該地域の平均賃料に基づく特徴量（地域ポテンシャル）を定義し、機械学習の一つであるRandom Forestを用いて推薦モデルを構築するとともに、実験の結果に基づいて精度のよい特徴量の組み合わせを決定している。本発表に対し、会場から、「B2B（Business to Business）を対象とした研究は珍しい」といったコメントや、物件情報に基づく特徴量のみを用い、顧客からの情報を用いない場合の顧客推薦の仕方や地域ポテンシャルの求め方に対する確認、さらにプライバシー情報の取り扱い方や不動産会社の営業担当の人による判断とのギャップ、等に関する質問があった。　
2件目のロング発表では、可変基底NMF（非負値行列分解）を拡張することにより、欠損の多い位置情報ログから周期性のある行動パターンを階層的に抽出する手法が提案された。本発表に対し、会場から、提案手法の細部に関する確認のための質問がいくつかあった。さらに、会場からの「特定の訪問先を訪れた、いろいろなユーザの行動パターンを利用できるのではないか？」という質問に対し、発表者は「予備実験では、他のユーザのデータは役に立たなかったが、リコメンドという観点では利用可能かもしれない」と回答した。なお、本発表ではGowallaのチェックインデータから抽出された特定ユーザの102日分のデータが位置情報ログとして利用されている。　
3件目のショート発表では、非上場企業を含めた16,461社の企業Webページから重要語を抽出し、企業間の類似度を求めることで、指定された企業の関連企業を抽出する手法が提案された。本発表に対し、会場からいくつか質問があった。例えば、単語（名詞）の重みを計算する際にエントロピーを用いた理由を尋ねる質問に対しては、「実験的に確認して、良かったから」という回答であった。また、「B2Bの企業とB2Cの企業ではホームページ（HP）の作り方も異なるはず。結果に影響するのでは？」という質問に対しては、「メーカー系と販売系では精度に違いが出るのを確認している」という回答であった。一方、「資本データなどの企業情報を考慮しているのか？」という質問に対しては、「非上場企業も対象にしたかったので、HPデータのみを使った」という回答であった。さらに、コメントとして、「株価データの連動性を見た方がいいかもしれない」という示唆があった。　
本セッション最後のショート発表では、散歩経路推薦システムが提案された。本研究は、長期間に亘る継続的な散歩の支援を目的としており、ユーザの飽きを抑えつつ、安定したカロリー消費の達成を支援する手法が導入されている。本発表に対し、会場からの「ルート選定時にループとか考慮しているのか？同じ経路を行って帰るのか？あるいは周回するのか？」という質問に対し、発表者は「考慮していないが、大体周回ルートになっている」と回答した。また、「分岐点数の多い経路の推薦は有効だったか」という質問に対しては、「推薦経路に従わない人には効果があった」という回答であった。

セッション2：特別講演
　司会：榊　剛史（ホットリンク）
本セッションでは、普段あまり注目されないデータ分析の泥臭く知見が共有されることが少ない、いわゆる「前処理」に焦点をあて、それらについて豊富な経験や知見を持っている3名の研究者をお招きし、それぞれの前処理についての苦労やノウハウを語って頂いた。
　吉田氏には、「Webデータのクロールについて」というタイトルで、ニュース記事、論文、ソーシャルメディアの投稿、Wikipedia記事という４つの対象について、それぞれを大規模に収集する方法について述べつつ、データ収集における法的な側面、実運用上の側面から見た留意点・注意点を詳細に説明していただいた。
　伊川氏には、ソーシャルメディアの位置情報に関する様々な前処理についてご講演いただいた。今回は特にTwitterから取得可能な位置情報の手掛かりについて、ユーザ居住地、ツイート中地名、GPS情報の3種類に分類した上で，どのような前処理が必要であるかを説明していただき、また、実際に取得可能な位置情報を定量的、定積的に提示していただいた。
　佐々木氏には、「データ分析でよく使う前処理の整理と対処」というタイトルで、データマイニング全般に関する前処理について系統だって説明し、代表的なアプローチを紹介して頂いた。さらに「前処理」を「データ分析の品質管理工程」と位置付け、いかにして前処理をルール化、効率化していくかという前処理に対する心構えをまとめていただいた。
　　質疑応答においては、蓄積したデータ公開における問題点や工夫、論文におけるオープンデータポリシー、データをクロールすることの是非、大学研究者として学生に何を教えるかなど多様な質問・意見が飛び交った。

セッション3：SNS分析
　副座長：大塚真吾（神奈川工科大学）
セッション3(ロング発表1件, ショート発表4件)では、料理レシピやTwitter投稿者や投稿内容の解析に関する発表があった。
１つ目の発表では、まず、類似レシピのクラスタリング手法に関する説明があり、その後、クックパッドのレシピを用いた実験結果の説明があった。質疑では、抽出したクラスタの正確性やクラスタリング結果の利用方法に関する議論など、活発な議論がなされた。
２つ目の発表では、Twitterのスクリーンネームと投稿活動率の関連性に関して3-gramを用いて行った分析結果の説明があった。質疑では、3-gramを用いた理由や投稿頻度に着目した理由などや、解析結果から得られた特徴に関して、活発な議論が行われた。
３つ目の発表ではTwitterの投稿場所から職業属性の推定を行う手法の提案と実験結果について説明があった。質疑では、評価の前提条件や推定する職業属性の粒度に関するものなど、活発な議論が行われた。
４つ目の発表ではTwitterを用いて天気と食べ物の関連性を抽出する手法と評価実験に関する説明があった。質疑では、提案手法において天気と温度を独立に扱う理由やPOSデータではなく、あえてTwitterを用いた理由に関する質問など、活発な議論が行われた。
５つ目の発表では災害時におけるツイート分析結果に関する説明があった。
質疑では、災害時における有用なツイートの定義や、ハッシュタグとツイート内容の扱い方などについて、活発な議論が行われた。

セッション4：ツール・Webシステム
　副座長: 村上晴美（大阪市立大学）
セッション4ではショート発表2件があった。
1件目の発表では、オープンソースとして公開されたWikipediaの構造特徴および表記特徴を利用した別称辞書自動生成ツールANDitについて紹介された。リコール（再現率）はどのようにはかればよいのか、愛称と通称の違いは何か、正式名称の数はどれくらいあるのか等の質問がなされた。改変のライセンスについての質問に対して、自由に改変してもらって構わない、報告をいただけるとありがたい、という回答がなされた。
2件目の発表では、シャフル表現を用いた非同期イベントの記述法と、複数のユーザが非同期並行的にアクセスするWebシステムの記述例についての発表がなされた。実行条件が正しく記述されているか検証できるのか、ユーザはシャフル表現を正規表現と同じくらい簡単に書けるのか、等の質問がなされた。

セッション5：評判分析
　副座長：湯本高行（兵庫県立大学）
セッション5では，2件のロング発表と1件のショート発表があった．
1件目の発表は，カスタマーレビューに関して，非典型度と評価極性の2次元空間上でクラスタリングを行う手法についての発表であった．会場からは，クラスタ数の決め方についての質問があり，今回は性能がよくなるように選んだが，システムではユーザが指定できるようにしたいとの回答があった．文章量が多い場合に関係のない文にもスコアが反映されるのではないかとの意見があったが，これに対しては，評価表現を含む文のみに対象を絞っており，レビューの数も多いので，影響は少ないとの回答があった．また，非典型度の算出に用いるPageRankの行列の作り方の妥当性についてのコメントなどがあった．
2件目の発表は，粒子フィルタと局所回帰平滑化を用いて，ユーザ評価に含まれるゆらぎを排除して商品やサービスの真の価値を推定する手法についての発表であった．手法の有用性の検証はシミュレーション実験により行っていた．会場からは，提案手法とユーザ評価の単純平均の差の原因について質問があった．これに対して，価値が一定とみなすと大数の法則で時間の経過につれて単純平均が有利になるが，15日目までは提案手法が優れており，価値が一定ではない場合は提案手法が優れているとの回答があった．これは，粒子フィルタは短期的追随が早いからであるとのことである．また，ゆらぎはcomputer visionのoptical flowなどでは考慮されているが，レビュー特有の部分はどこにあるのかという質問があった．
3件目の発表は，評価対象と評価表現の双方を考慮して意見文をクラスタリングする際に分散表現を用いることの有用性についての検討結果の報告であった．単語の表層の違いの吸収が目的なのかという質問に対し，文書単語行列は，形態素の基本形を使っても少しでも違うと違う列になってしまうが，分散表現は単語に複数の次元が与えられるため，類似していると判定できるとの回答があった．また，特異値分解との違いについての質問については，特異値分解は軸自体を変えるが，分散表現は単語からのアプローチであるとの回答があった．また，深い分析の結果を示した方がよいのではないかとのコメントがあった．

セッション6：情報検索
　副座長：深澤佑介（NTTドコモ）
1件目のショート発表では、マルチモーダルな検索（画像を検索質問として文書を検索，文書を検索質問として画像を検索）の精度を向上するため、画像とテキストの二種類の多変量データの共通する特徴を解析する手法を提案している。画像とテキストを両方持つWikipediaの記事を対象として、画像→正しいテキスト、テキストクエリ→正しい画像を探す評価を実施し、精度向上を確認している。聴衆からは、「画像の特徴だけ使っているのか？」「画像の周りの言葉を使っているのか？」といった特徴量に関する質問が出た。また、「クラスが10個程度なのできめ細やかな検索ができないのではないか」といったクラス設計に関する質問も出た。「NNの層の数」に関する質問を出たが、精度向上には3層以上必要との回答があった。
2件目のショート発表では、シラバスにおける科目間の関連性を抽出し，関連科目を見つけ出すことで，シラバスに書かれている書籍検索をするシステムを開発している．科目間の類似度は、シラバスの内容を名詞で形態素解析を行い，コサイン類似度によって計算している。聴衆からは、「書籍の目次とシラバスの科目のコンテンツマッチングをしたほうがいいのではないか」といった質問が出た。これに対し、「手作業のコストがかかるため実施していなかったが、今後Amazonデータが容易にとれるようになるため実施したい」との回答があった。また、「関連と類似は異なるためコサイン類似度を単純に適用してよいのか。関連は、役に立つといった観点（例：音響を学ぶためには事前にフーリエ変換の書籍を学ぶ必要がある）だが、類似はテーマが似ているといった観点である。」といった「関連性」の定義に関する質問がなされた。

セッション7：地方活性化・観光 I
　副座長：北山大輔（工学院大学）
本セッションでは，2件のロング発表があった．1件目はユーザの回遊行動を分析するために，日本酒飲み歩きイベント（NGA2015）に対してサポートアプリケーションを提供することによる，回遊行動の収集を行った結果の報告があった．サポートアプリケーションへのアクセスが人間であるかロボットであるかを判断するための工夫を含め，アプリケーション設計の詳細が紹介された．また，分析結果としてイベントに対しての事前調査時の閲覧店舗の範囲と当日に行動した店舗の範囲の違いなどが紹介された．会場からは，飲んで動けなくなり近場で済ませたために行動範囲に違いが現れたのではないかなどの日本酒飲み歩きイベントの特殊性と一般化に関する質疑が行われた．
2件目の発表では，twitterデータからの観光地抽出および魅力の評価を行う手法の提案があり，その実行結果が報告された．この手法では，2地域間の流れはこれらの地域の人口の大きさに比例し、その間の距離の何乗かに反比例するとするとする重力モデルの考え方を適応し，地域の魅力評価に用いている．しかし，魅力度が高い地域には観光地やショッピングセンターなどいろいろな種類が含まれてしまうため，TF-IDFにより重み付けしたテキストにより固有性を算出し，地域の分類を行っていた．会場からは，結果がガイドブックに載っていそうなくらい一般的なので，意外な結果を出すようにはしないのか．国内の人，海外の人，趣味などのユーザ情報を入れることで特色のある結果になるのではないかなど，多数の前向きな議論が行われた．
両発表ともに受賞するなど，本セッションは非常に盛り上がり，地域情報や観光情報に関する関心の高さがうかがえた．

セッション8：地方活性化・観光II
　副座長：櫻井茂明(東芝)
セッション8では、地域活性化・観光に関する3(ロング:1、ショー:2)件の発表が行われた。
1件目の発表では、外国人観光客に対して、日本における有用な観光情報を英語によって提供可能な人を、Twitter利用者の中から発見する方法を提案する。提案法では、在日米軍関係者やbotを除去する一方、観光に関するツイートの頻度やその有用さ、多くの場所への訪問、滞在期間の長さといっ基準を利用することにより、対象となる利用者を発見する。本発表に対して、被験者を用いた評価実験の概要に関する質疑が行われるとともに、観光地に対するツイートだけで有用性を評価するのは難しいのではないかとの意見が出された。
2件目の発表では、川越市内の景観調査から得られたデータに基づいて、撮影場所ごとのスナップショットとその要約コメントを作成して、ランキングする方法を提案する。提案法では、オリジナルのコメント文から、異なる単語が含まれるように逐次的に文選択することにより、要約コメントを作成する。本発表に対して、文の前後関係を考慮しなくて問題ないかとの質問がなされ、概ね妥当な要約になっているとの回答がなされた。また、コメント記載時に指示を与えても、同様な効果を得られるのではないかとのコメントがなされた。
3件目の発表では、地域店舗についての評判やリアルタイムな状況についてのTwitter上におけるツイートを収集する方法を提案する。提案法では、地域名、位置情報、地域ユーザを用いて地域店舗に関するツイートを収集し、その中から抽出したキーワードを用いて、ツイートを拡張している。本発表に対して、地域店舗を示すキーワードに関する質疑が行われ、有名なメニューの存在によりツイートの拡張ができたとの回答がなされた。また、フォロアワー数と精度に関する質疑が行われ、精度による差はなかったとの回答がなされた。

運営委員会

実行統括担当：高間康史（首都大学東京）
プログラム担当：深澤佑介（NTTドコモ）
ローカル担当：櫻井一貴（リクルートテクノロジーズ）