スキップしてメイン コンテンツに移動

投稿

11月, 2016の投稿を表示しています

twitterのデータでbotを作ってみた

twitterのデータを使ってbotを作ってみました。大量の学習データを短期間で集めやすく、マシンラーニングの初学者としては良い題材ではないかと思います。 tensorflowに付属の翻訳のサンプルコード(seq2seq_model)を用いて、学習データを「英語→フランス語」から「tweet → リプライtweet」に置き換えると実現できます。日本語を使ったので、形態素解析も必要になります。学習リソースを有効に活用するため、前処理として絵文字、句読点、タグなどは除去しました。 語彙数を1.5万とし、RNNを3層にスタックして学習しました。awsのt2.large(このときメモリ8GB)を用いたところ、メモリ不足で2万語の学習は不可能でした。 ソースコードを下記に置いております。 https://github.com/refluster/jupyter/tree/master/003.simple_bot 技術的な理解は、下記資料が参考になります。 http://www.slideshare.net/tak9029/tensorflowai 学習の仕組み 学習開始から2時間経過 1日経過 4日経過 1週間経過