目標
自然言語処理とは,日本語や英語のように人間が使用する言語で書かれたテキストを計算機で処理する技術である.本実験では,日本語テキストを対象とした文書分類の実験を通して,テキストデータの前処理/基本的な文書分類法/文書分類のための様々な特徴量について体験的に学習することを目標とする.
レビュー分類
Webを介したEコマースやSNSの発展により,商品やサービスの利用者の感想が書かれたユーザレビュー文書(以下,レビュー)がWeb上に蓄積されるようになった.レビューは,人間が読める量を上回るペースで日々生成されるため,活用するためにはレビュー自動解析技術が不可欠である.本実験では,自動解析技術のうち,レビューを対象にした文書分類(レビュー分類)技術に焦点を当てて実験をおこなう.レビュー分類とは,レビューをその内容に従ってカテゴリ分類する処理である.
アルゴリズム
人間が文書を分類するには,文書を読んで内容を理解し,内容に基づいて文書を適切なカテゴリに分類すれば良いわけだが,(残念ながら)今のところ,計算機には日本語や英語等の人間が使う言語を人間と同じようには理解できない.本実験では,以下の分類アルゴリズムを取り上げ,文書自動分類の処理過程を学習する.
また,受講生の学習状況に応じて,より発展的な話題も取り上げる.
文書分類課題を題材に計算機によるテキストデータの処理方法を理解し,説明できるようになる.また,3種類の機械学習アルゴリズムのプログラム実装を経験することで,各アルゴリズムの特徴を踏まえて適切に社会応用できるようになる.
使用言語は Python の予定です.