第15回WI2研究会報告

2019年11月8日(金)・9日(土)に，神奈川工科大学アクティブ・ラーニング横浜（神奈川県）にて第15回WI2研究会を開催致しました．一般発表は，ロング発表・ショート発表，ポスターのみの発表，技術報告，招待パネル合わせて17件の発表がありました．また，データサイエンスを広く啓蒙する立場の皆様をお招きした招待パネル「社会が求めるデータサイエンティストとは？」を開催しました．

ソーシャルメディア，機械学習に関するセッションがありました．ポスターレセプションでは，口頭発表との重複2件を含め，計10件の発表がありました．参加者は55人でした．

→プログラム　 →招待講演　 →表彰　 →副座長報告　 →学生参加報告　 →運営委員会

日時・会場

日時:	2019年11月8日（金）13:00～18:20 2019年11月9日（土）10:00～12:30
会場:	神奈川工科大学アクティブ・ラーニング横浜（〒220-0011 神奈川県横浜市西区高島2-6-32 横浜ウィスポートビル（旧日産横浜ビル）10F） http://www.ess.ic.kanagawa-it.ac.jp/temp2/yokohama/active_learning.pdf

アルバム

プログラム

■11月8日（金）（13:00～受付）
13:30-13:40	オープニング
13:40-14:50	セッション1: ソーシャルメディア（１）座長: 村上晴美（大阪市立大学）副座長: 松村敦（筑波大学）（ロング発表） 1. 単語分散表現を用いた観光地レビューからのクロスドメイン歌詞検索☆ 韓毅弘，山西良典，西原陽子（立命館大学），奥健太（龍谷大学）（ショート発表） 2. SNSによるFITとGITの分類手法の提案 ☆ 喬冠語（首都大学東京），廣田雅春（岡山理科大学），荒木徹也（群馬大学），遠藤雅樹（職業能力開発総合大学校），石川博（首都大学東京） 3. VTuberにおけるソーシャルネットワークに関する分析 ☆◎ 武田太一（筑波大学），濱崎雅弘，後藤真孝（産総研）
15:00-16:30	招待パネル「社会が求めるデータサイエンティストとは？」パネリスト: 北村慎也氏（帝国データバンク），関口訓央氏（経済産業省），常楽諭氏（Sansan），杉本知之氏（滋賀大学）指定討論者: 杉原太郎氏（東京工業大学）司会進行兼パネリスト: 笹嶋宗彦（兵庫県立大学）
16:50-18:20	ポスターセッション（ポスターのみの発表） P1. チャットボットとユーザストーリーグラフを用いた個人生産性向上支援システムの提案李穎豪，柴田裕樹，高間康史（首都大学東京） P2. コンテキスト情報に基づく楽曲推薦システムにおけるネガティブサンプリングの効果検証張錦程，柴田祐樹，高間康史（首都大学東京） P3. 地域の特有性を考慮した旅行ブログの検出手法労瑛瑩，魏逸倫，韓東力（日本大学） P4. コンテクスト検索エンジンにおけるタグを活用した知見共有の提案岡久太一，柴田祐樹，高間康史（首都大学東京） P5. 居住空間におけるユーザコンテキストを用いた行動推薦システムの提案白井佑，柴田祐樹，高間康史（首都大学東京） P6. 無貨幣ファイナンスとしての資源配分予約権マネジメントシステム（社会経済的構図としての機会疎外への対応として）に関する自由空想的想像 — 2019.06.28-29第14回WI2研究会ポスターエッセー「定常経済／成長期待的行動の経済の両側面を包含した経済・社会に関する統合的なモデル理論の試験的提案 – 藤原(DAYPLA)」への続きとして．藤原剛（DAYPLA） P7. 機械学習プロジェクトキャンバス西山莉紗，磯村哲，伊藤優（三菱ケミカルホールディングス） P8. コンテクスト検索エンジンへの論理演算機能導入の提案柴田祐樹，佐藤宏貴，高間康史（首都大学東京）
■11月9日（土）（9:30～受付）
10:00-10:50	セッション2: 機械学習座長: 奥健太（龍谷大学）副座長: 櫻井茂明（東芝デジタルソリューションズ）（ロング発表） 4. 価値観モデリングを利用した協調フィルタリングにおけるモデル関係学習の提案高間康史，白石雄也，柴田祐樹（首都大学東京）（ショート発表） 5. A proposal to improve the performance of feature selection methods with low-sample-size data ☆ Wanwan Zheng, Mingzhe Jin （Doushisha University）
11:00-11:15	技術報告セッション司会：杉原太郎（東京工業大学） – 株式会社LIFULL
11:25-12:05	セッション3: ソーシャルメディア（２）座長: 大向一輝（国立情報学研究所）副座長: 濱崎雅弘（産業技術総合研究所）（ショート発表） 6. 地域特有の埋め込み表現を用いたイベント参加地域の推定 ☆ 小久保千裕，小邦将輝，関洋平（筑波大学） 7. 擬似正解コーパスを用いたレストランレビューのコンテキスト分類 ☆◎ 藤岡寛子，山西良典，西原陽子（立命館大学）
12:15-12:30	表彰式・クロージング

招待パネル：「社会が求めるデータサイエンティストとは？」

司会：	笹嶋宗彦（兵庫県立大学）
指定討論者：	杉原太郎氏（東京工業大学）
パネリスト：	北村慎也氏（帝国データバンク），関口訓央氏（経済産業省），常楽諭氏（Sansan），杉本知之氏（滋賀大学），笹嶋宗彦（兵庫県立大学）
講演概要：	わが国では，政府が主導する形で，データサイエンティストの育成が急ピッチで進められている．本セッションでは産，官，学，それぞれの立場で人材育成と活用に携わる方々をパネリストにお迎えし，データサイエンティストに求められるスキル，人材育成の理想と現実，今後わが国が向かうべき方向性などを議論する．

表彰

WI2研究会では，出席したWI2委員全員により，全ての発表の聴講と評価を行っております．また，ポスター発表において，一般参加者の皆様にも投票に加わっていただきました．今回，各賞を受賞された研究は以下のようになります．

優秀研究賞
価値観モデリングを利用した協調フィルタリングにおけるモデル関係学習の提案
高間康史，白石雄也，柴田祐樹（首都大学東京）

萌芽研究賞
VTuberにおけるソーシャルネットワークに関する分析
武田太一（筑波大学），濱崎雅弘，後藤真孝（産総研）

学生奨励賞
A proposal to improve the performance of feature selection methods with low-sample-size data
Wanwan Zheng, Mingzhe Jin （Doshisha University）

優秀ポスター発表賞
コンテキスト情報に基づく楽曲推薦システムにおけるネガティブサンプリングの効果検証
張錦程，柴田祐樹，高間康史（首都大学東京）

機械学習プロジェクトキャンバス
西山莉紗，磯村哲，伊藤優（三菱ケミカルホールディングス）

特別賞

DAYPLA賞
擬似正解コーパスを用いたレストランレビューのコンテキスト分類
藤岡寛子，山西良典，西原陽子（立命館大学）

チャットボットとユーザストーリーグラフを用いた個人生産性向上支援システムの提案
李穎豪，柴田裕樹，高間康史（首都大学東京）

スタートアップ賞
機械学習プロジェクトキャンバス
西山莉紗，磯村哲，伊藤優（三菱ケミカルホールディングス）

副座長報告

セッション1：ソーシャルメディア（１）
副座長: 松村敦（筑波大学）

1件目の発表では，単語分散表現を用いて観光地レビューに類似したコンテキストの歌詞を選曲する手法が提案された．ここでいうコンテキストは，観光地の雰囲気や特性であり，レビューを歌詞とみなして単語分散表現に置き換えることで，歌詞との類似性を判定できるようにした．質疑応答では，観光地ベクトルの生成で情報量が減ってしまっている問題が指摘され，その上で分布の重なりを考える方法があるのではないかと提案するコメントがあった．また，分散表現を利用する意図を問われ，これに対しては，レビューや歌詞に現れる人間の感情的な表現を捉えたいためとの説明があった．関連して，歌詞とレビューのそれぞれで使っている単語集合が異なる可能性についての指摘があり，今回の手法でカットしてしまった非共通の単語に対する分析の必要性が議論された．さらに，大規模なコーパスで検証してみると良いのではないかとのアドバイスがあった．

2件目の発表では，SNS上の発言から団体旅行者（GIT）か個人旅行者（FIT）かを分類する手法が提案された．対象のSNSは中国の主要SNSの一つであるWeiboであり，SVMを用いた分類器を使い分類を行っている．特徴量は，個人か団体かを区別する語，主要な観光地かどうか，および投稿件数であった．質疑応答では，対象としたデータでのFITとGITの分布が問われ，関連して，どの程度の精度で分類ができれば良いかの指標についての質問があり，その根拠を示せるように補強するようアドバイスがあった．また，対象データとして抽出した観光ユーザの妥当性についての評価が必要な点が指摘された．

3件目の発表では，VTuberのSNS上での活動情報を収集し分析した結果が報告された．主な分析の結果として，フォロワーの共起関係に基づくt-SNEによる可視化が示され，アニメのプロモーションアカウントの存在や有名なVTuberグループに所属するアカウントの集合が見られることが報告された．これらをもとに，VTuberのコラボレーションによる活動の重要性についての議論が示された．質疑応答では，VTuberの特徴が取り入れられた分析になっているかとの質問があり，現時点では一般的な分析からVTuberの特性を見つける段階であるとの説明があった．これを踏まえて，今後は，VTuberだからこその分析を行うという方向性と他のドメイン（声優やYouTuberなど）の演者に対する分析と比較してそれぞれのドメインの特性を出すという方向性の2つがあるのではないかとのコメントがあった．関連してより具体的に，YouTuberのコラボレーションの頻度とVTuberのコラボレーションの頻度の違いから分析を掘り下げるのも面白いのではないかとのコメントがあった．

セッション2：機械学習
副座長：櫻井茂明(東芝デジタルソリューションズ)

1件目の高間康史(首都大学東京)，他によるロング発表「価値観モデリングを利用した協調フィルタリングにおけるモデル関係学習の提案」では，行列分解に基づいた新たな推薦法を提案している．提案法においては，ユーザモデルとアイテムモデルの橋渡しをするモデル関係行列を，機械学習に基づいて柔軟に設定することを可能としている．2種類のデータセットを通した評価実験により，提案法が従来法と同程度の推薦精度を保つ一方で，多様なアイテムを推薦できることを検証している．本発表に対して，「多様性の評価方法に関する質疑では，推薦されるアイテムの数によって評価している．」，「半教師学習利用によるユーザ好みの反映に関する質疑では，学習対象をモデル関係行列に制限することにより類似の効果が得られている．」，「価値観の時間変化に関する質疑では，時系列性は現状考慮していない．」，などの質疑応答が行われた．

2件目のWanwan Zheng(Doshisha University), et al.によるショート発表「A proposal to improve the performance of feature selection methods with low-sample-size data」では，データの質とサンプル数の両方を考慮した，高次元低サンプル数データからの特徴選択法を提案している．提案法においては，各クラスにおける最も典型的なサンプルを定義し，これらサンプルからの特徴選択を開始して，順次サンプル数を増やしていくことにより，特徴選択を実施している．提案法の効果を20のベンチマークデータで評価し，その効果を検証している．本発表に対して，「適用した機械学習におけるパラメータ調整に関する質疑では，各データセットに対して同一のものを利用している．」，「実験データセットで選択された特徴の次元数に関する質疑では，7～11個程度だった．」，「対象とするクラス数に関する質疑では，2クラス以上の多クラスにも対応している．」，などの質疑応答が行われた．

セッション3：ソーシャルメディア（２）

副座長: 濱崎雅弘（産業技術総合研究所）

セッション3では，ソーシャルメディアに関する発表（ショート発表2件）があった．

1件目の発表では，地域特有の埋め込み表現を用いたイベント参加地域の推定手法について提案された．提案手法ではSNSの投稿に現れる単語の地域差に着目し，投稿者のイベント参加地域を推定する．具体的には地域住民のツイートから得られた単語埋め込み表現と，地域を限定しない巨大ツイートコーパスから得られた単語埋め込み表現とを組み合わせることで，地域の特徴を反映した単語埋め込み表現を得る．さらにSCDV（Sparse Composite Document Vectors）により複数の単語から構成されるツイートをベクトル化し，これに分類器を適用することで特定の地域イベントに関するツイートか否かを判別する．質疑応答では，地域特徴を考慮した単語埋め込み表現の作り方，特に異なる単語埋め込み表現を統合する方法について質問があった．

2件目の発表では，疑似正解コーパスを用いたレビュー文の分類手法について提案された．疑似正解コーパスとは，ある偏りを持ったコーパスを，特定のラベルが付与されたデータの集合だと見做したものである．本論文ではレストランのレビュー文に対して，それが食事に関するレビューか，雰囲気に関するレビューかを分類する問題に取り組んでいる．そのためにレシピ共有サイトのレビュー文を食事に関する文章，ホテル予約サイトのレビュー文を雰囲気に関する文章と見做し学習データとして扱う．これによりレストランのレビュー文に対するラベル付を不要にする．発表では，実際にレストランのレビュー文を食事についてか雰囲気についてかを分類した結果を予備実験結果として示した．質疑応答では，うまくいかなかったケースの具体例は何か，推定された確率の値の偏りがどういう意味を持つのかといった質問があった．