【機械学習】KerasのLSTMで未来のブログ訪問者数を予測してみる

先日、ブログ運営（主にAmazonアソシエイトの話）に関する赤裸々な記事を書きました。
hahaeatora.hateblo.jp

今回はより赤裸々で且つエンジニアっぽいブログ運営の記事を書いてみます。AI（人工知能）にブログのアクセス解析させてみよう的なやつです。具体的に書くと、時系列データに強いとよく言われるLSTMを使い未来のブログ訪問者数（※ユニークユーザー数）を予測してみようという内容です。

学習用データの準備

本ブログではGoogleアナリティクスでアクセス解析を行なっています。 Googleアナリティクスでは多くの指標を確認できますが、今回使うのは「ユーザー」数です（いわゆるユニークユーザー数のこと）。指標の確認はWeb上で可能ですが、これらのデータはCSVファイルとしてもダウンロードできます。「ユーザーサマリー」ページの右上に「エクスポート」ボタンがあるのでファイル種別「CSV」としてダウンロードしましょう。

データの対象期間は、私が比較的ブログを定期的に書くようになった気がする2018年8月から1年間分とします（2019年7月まで）。このCSVをPythonのDataFrameとして読み込みMatplotlibでグラフ化すると以下のようになりました。

f:id:hahaeatora:20190823014033j:plain:w750
本ブログのアンダーグラウンドぶりを表すかのような数字です（最近は100弱辺りで安定してきました恥）。ちなみにCSVの日付列（仮に'date'とする）を読み込む際はparse_datesに該当columnを指定しdatetime型として読み込むと、グラフのplot時に目盛り表示を良さげにしやすいです。

df = pd.read_csv(csvpath, parse_dates=['date'])

今回は「二週間分のデータからその翌日のユーザー数を予測させる」ようにDataFrameから学習用データを作成します（イメージ的には以下）。

f:id:hahaeatora:20190823022451p:plain:w400

モデルの構築・学習

モデルは以下のような構成にしました。KerasのRecurrentレイヤーを使うと超簡単に構築できるので非常に楽です。

model = Sequential()
model.add(LSTM(
  1024,
  input_shape=(14,1),
  return_sequences=False))
model.add(Dropout(0.5))
model.add(Dense(1))
model.add(Activation("linear"))
model.compile(loss="mean_squared_error", optimizer=Adam(lr=0.001))
model.fit(
  X, Y,
  batch_size=100,
  epochs=300,
  validation_split=0.1
)

上記モデルにデータを学習させた後、確認として2018年8月15日から2ヶ月分のユーザー数を予測してみました（実際に記録した2週間分のユーザー数を各入力とする）。

f:id:hahaeatora:20190823023904j:plain:w500
うん……まあ何となく予測できているかな？
では今回の目的である未来の訪問者数を予測してみたいと思います。2019/7/18~7/31のデータを入力として8/1のユーザー数を予測、それを末尾に追加して7/19~8/1の入力データを作成し8/2のユーザー数を予測……という流れで未来のブログ訪問者数を予測していきます。こうして予測した2ヶ月分の訪問者数をグラフに出力してみました。