自然言語処理でベストセラーのタイトルを分析してみた

2018-09-21 3:15

技術系記事

f:id:wake05410:20180919203928j:plain

はじめまして。Aidemy研修生のこんどうです。本屋のビジネス書コーナーに行くとこんなことを思います。
「売れてるビジネス書のタイトルを分析して最強のタイトルを考えればたとえ中身がなんであろうと爆発的に売れるのではないか」
そんな妄想を背景として本記事では 「自然言語処理を用いたビジネス書タイトルの分析」 について書いていきたいと思います。

1 全体の流れ
2 環境
3 スクレイピング
4 形態素解析で品詞分解
5 結果
6 結果の分析と反省
7 おまけ）ビジネス書のトレンド
- 7.1 ブロックチェーンとビットコイン
- 7.2 TOYOTAとGoogle
8 おわりに

全体の流れ

ランキングサイトからスクレイピングでデータ収集 ↓ 形態素解析で品詞分解 ↓ 単語ごとに出現回数を表示して分析

環境

Python 3.6.4
jupyter notebook 4.4.0
windows 10

スクレイピング

東洋経済ONLINEのサイトでAmazonのビジネス書売り上げランキングが毎週1位~200位まで発表されているので今回はそれをスクレイピングで自動収集していきます toyokeizai.net

f:id:wake05410:20180919154920p:plain

本のタイトルの取得と同時に順位に応じてポイントをつけていきますデータについて

期間：2016/2/9~2018/9/19
各週のデータ数：1位~200位
各週ごとに1位に200pt,2位に199pt....とポイントをつける
本のタイトル総数：2983タイトル

スクレイピングに用いるライブラリ:BeautifulSoup

import pandas as pd
import urllib.request
from bs4 import BeautifulSoup
import json
import time
import numpy as np

#スクレイピングしてタイトルとポイントをjson形式で出力
#リンク一覧ページからランキングサイトのリンクを取得
link_list=[]
for i in range(1,11):
    url_ranking_list_root="https://toyokeizai.net/category/weeklyranking"
    page_url="?page="+str(i)+"&per_page=15"
    url_ranking_list=url_ranking_list_root+page_url

    html=urllib.request.urlopen(url_ranking_list)
    soup=BeautifulSoup(html,"lxml")
    link_html_list=soup.find_all("a",class_="link-box")
    for link_html in link_html_list:
        link_list.append(link_html.get("href"))
    time.sleep(1)
link_list=list(set(link_list))

#辞書作成
dict={}
for n in range(0,len(link_list)):
    for page_num in range(2,6):
        root_url="https://toyokeizai.net"
        page_url="?page="+str(page_num)
        url=root_url+link_list[n]+page_url
        html=urllib.request.urlopen(url)
        soup=BeautifulSoup(html,"lxml")
        title_list=soup.find("tbody").find_all("a")
        
        for i in range(len(title_list)):
            if title_list[i].text not in dict:
                dict[title_list[i].text]=200-(i+50*(page_num-2))
            else:
                dict[title_list[i].text]+=200-(i+50*(page_num-2))
        time.sleep(1)

#json形式で出力
with open("book_data.json","w",encoding="utf-8") as f:
    json.dump(dict,f,indent=4,ensure_ascii=False)

形態素解析で品詞分解

スクレイピングで収集したタイトルを形態素解析していきます形態素解析とは… 文章を意味のある単語ごとに分解する技術です

f:id:wake05410:20180919153713p:plain

今回は本のタイトルを形態素解析したあとそれぞれの単語の出現回数をカウントしていきます用いるライブラリ：janome

from janome.tokenizer import Tokenizer
import numpy as np
import pandas as pd

with open("book_data.json","r",encoding="utf-8") as f:
    dict=json.load(f)
title_list=list(dict.keys())
point_list=np.array(list(dict.values()))

title_wakati=[]

for i in range(len(title_list)):
    #正規表現で不要頻出語を削除
    title=title_list[i]
    title=re.sub("新書","",title)
    title=re.sub("単行本","",title)
    title=re.sub("雑誌","",title)
    title=re.sub("文庫","",title)
    title=re.sub("[。!-/:-@[-`{-~]","",title)

    t=Tokenizer()
    tokens = t.tokenize(title)
    for token in tokens:
        partOfSpeech = token.part_of_speech.split(",")[0]
        surface = token.surface
        #１語の単語を削除して名詞と動詞のみを取り出し
        if len(surface) > 1:
            if partOfSpeech == "名詞":
                title_wakati.append(surface)        
            if partOfSpeech == "動詞":        
                title_wakati.append(surface)
        
#単語数をカウント
d_count=collections.Counter(title_wakati)
d_count=d_count.most_common
#DataFrame化
word_dct={"単語":[],
                  "出現回数":[]}
for i in d_count:
    word_dct["単語"].append(i[0])
    word_dct["出現回数"].append(i[1])

df=pd.DataFrame(word_dct)
df=df_top.sort_values("出現回数",ascending=False)
df.reset_index(drop=True,inplace=True)
df.to_csv("book_data.csv")

結果

ビジネス書に出てくる単語ランキング

出力結果

f:id:wake05410:20180920223641p:plain

上位一部だけ抜粋 「会社」「仕事」「経済」 などの一般的によく使われる単語から

「ビジネス」「教科書」「最強」「リーダー」「戦略」 などのビジネス書にありがちな単語も多く見られます

売れ行きで重みづけしたランキング

ここで先ほど集計したポイントで単語を重みづけしてみます
つまり売れている本に出ている単語をより重要な単語として扱うということです

with open("book_data.json","r",encoding="utf-8") as f:
    dict=json.load(f)
#ポイントに√をかける
title_list=list(dict.keys())
point_list=np.array(list(dict.values()))
point_list_root=np.sqrt(np.abs(point_list))
#ポイントに応じて単語を重みづけ
title_list_ex=[]
for i in range(len(point_list_root)):
    title_list_ex.append(title_list[i]*int(point_list_root[i]))
title_wakati=[]
for i in range(len(title_list_ex)):
    #正規表現で不要頻出語を削除
    title=title_list_ex[i]
    title=re.sub("新書","",title)
    title=re.sub("単行本","",title)
    title=re.sub("雑誌","",title)
    title=re.sub("文庫","",title)
    title=re.sub("[。!-/:-@[-`{-~]","",title)

    t=Tokenizer()
    tokens = t.tokenize(title)
    for token in tokens:
        partOfSpeech = token.part_of_speech.split(",")[0]
        surface = token.surface
        #１語の単語を削除して名詞と動詞のみを取り出し
        if len(surface) > 1:
            if partOfSpeech == "名詞":
                title_wakati.append(surface)        
            if partOfSpeech == "動詞":        
                title_wakati.append(surface)
        
#単語数をカウント
d_count=collections.Counter(title_wakati)
d_count=d_count.most_common()
#DataFrame化
word_dct={"単語":[],
                  "出現頻度":[]}
for i in d_count:
    word_dct["単語"].append(i[0])
    word_dct["出現頻度"].append(i[1])

df_ex=pd.DataFrame(word_dct)
df_ex=df_ex.sort_values("出現頻度",ascending=False)
df_ex.reset_index(drop=True,inplace=True)
df_ex.to_csv("book_data_ex.csv")

結果

f:id:wake05410:20180920230719p:plain

あまり変わりませんね….

上位と下位の単語出現頻度の比較

売上で重みづけしてもあまり順位が変わらなくてやや焦ってきましたが
じゃあ売上の上位と下位で使われている単語に違いはないのか？
と思ったので売れ行き上位10%と下位10%の本のタイトルを比較することにしました（先ほど扱ったポイントの上位10%と下位10%を抽出）

with open("book data.json","r",encoding="utf-8") as f:
    dict=json.load(f)
#ポイントによって辞書をソート
dict=sorted(dict.items(),key=lambda x:x[1],reverse=True)
title_list=[]
point_list=[]
for i in dict:
    title_list.append(i[0])
    point_list.append(i[1])
#上位10%と下位10%を抽出
title_list_top=title_list[:300]
title_list_bottom=title_list[2683:]
#以下同じ

ご覧のとおり全然変わらないです…. 「ビジネス書のタイトルどれも同じなのではないか」という結論が見えてきました。

売上に貢献している単語は？

そこで続いては売上ポイントに寄与している単語はなにかを調べてみることにします最頻出単語の上位400個(上位10%)を取り出して、各タイトルについて含まれていれば1、含まれていなければ０をつけてカテゴリー化しますダミー変数については以下のリンクを参考にしてください xica.net

with open("book_data.json","r",encoding="utf-8") as f:
    dict=json.load(f)
title_list=list(dict.keys())
point_list=np.array(list(dict.values()))
df=pd.read_csv("book_data_new.csv",index_col=0)
words_list=list(df["単語"][:100])
title_score=[[] for i in range(len(title_list))]
for i in range(len(title_list)):
    title=title_list[i]
    for word in words_list:
        if word in title:
            title_score[i].append(1)
        else:
            title_score[i].append(0)
df_score=pd.DataFrame(title_score)
df_score.columns=words_list
df_score.index=title_list

出力結果はこのようなデータフレームになります

scikit-learnのライブラリfeature_selectionを用いて
売上ポイントに最も寄与した単語を指定した個数（今回は20個）だけ取り出します
変数選択手法について aotamasaki.hatenablog.com f
eature_selectionについて qiita.com

変数選択手法のなかで今回はFilter Methodの分散分析とWrapper MethodのRFEを使用しています詳しくはリンクを参照していただきたいのですが・分散分析：説明変数のどれを選ぶかを変えることで予測値がどれくらい変わるかを計算して重要変数を見つける手法・Wrapper Method：変数を選んだらモデルを作成して予測値を計算することで重要変数を見つける手法 Filter Method

from sklearn.feature_selection import SelectKBest,f_regression

selector=SelectKBest(k=20)
selector.fit(df_score,point_list) 
X_selected=selector.transform(df_score)
mask=selector.get_support()
scores=selector.scores_
score_dct={}
for i in range(len(mask)):
    if mask[i]==True:
        score_dct[words_list[i]]=scores[i]
        
for k, v in sorted(score_dct.items(), key=lambda x: -x[1]):
    print(str(k) + ": " + str(v))

出力結果がこちらです

「NewsPicks」「Book」「業界」のスコアが高いのでこれらの単語が入っているとポイントが上がる傾向があるようです Wrapper Method

from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

selector=RFE(LinearRegression(),n_features_to_select=20)
selector.fit(df_score,point_list)
mask=selector.get_support()

for i in range(len(mask)):
    if mask[i]==True:
        print(words_list[i])

出力結果

大方は一致していますね RFEのほうでは重回帰分析モデルをいちいち作成してるのでこっちのほうが正確な気もしますこれらの結果から売上と相関の強い単語だけを集めたビジネス書タイトルを考えてみました「ハーバード式本質的な考え方の授業」「生き方を変える行動の科学(NewsPicks)」なんか普通にありそうなタイトルですね…

結果の分析と反省

・ビジネス書のタイトルによく出てくる単語は相当偏ってそうです。直感的には「似たようなタイトル多いなぁ」と感じますが定量的に見てみると明らかです
・売上の上位も下位もタイトルに使われている単語は大方共通でした。

ここに大きな差が出てくれると面白かったのですが… ベストセラーに共通の単語は見つかりませんでしたが、 売上と相関のある単語が見つかったのは今回１番の収穫でした

もちろん相関関係と因果関係は別ですが… 今回はランキングの1位~200位までしか取れなかったので単語レベルでも似たようなものしか出てこなかったのかと思いますもっと幅広いビジネス書のタイトルと売上を集計できればよりおもしろい結果が出そうですデータ収集の重要性と難しさを改めて感じますね

おまけ）ビジネス書のトレンド

先ほどは売れ行き順にクラスを分割しましたが時系列順に分割してみたらおもしろいことが分かるのではないかつまりビジネス書のタイトルのトレンドからその時々のビジネスパーソンの関心事もわかるのではないかということです単語を抽出する操作は大体同じなのでコードは割愛します期間は半年をひと区切りとして計５つの期間に分けました

ブロックチェーンとビットコイン

まず近年注目の集まっている単語「ブロックチェーン」「ビットコイン」に注目してみました２つの単語が含まれているタイトル数を各区間で週計してグラフにしたもの（上段）と Googleトレンドで調べた２つの単語の日本での検索数（下段）をグラフにしました。

ビジネス書のトレンドも世間のトレンドと同時に上がっていますが、世間ではすぐに冷めた関心がビジネス書ではより大きくなっているところが興味深いです。

TOYOTAとGoogle

「トヨタ」と「Google」の出現回数の推移も調べてみました。

2年前まで20近い出現数だった「トヨタ」は近年数を落とし、「Google」が数を伸ばしてきています。経営システムのトレンドがトヨタ流からシリコンバレー流に変化していることがビジネス書のタイトルからも定量的に分かるというのはひとつおもしろい発見でした。

おわりに

直感的に感じていることを定量的に表すというのは新しいことを発見する良い手がかりになると思いますのでぜひ色々な場面で挑戦してみてほしいと思いますこの記事が少しでもその助けになれれば幸いです

プログラミング未経験からでもAIスキルが身につくAidemy Premium

PythonやAIプログラミングを学ぶなら、オンライン制スクールのAidemy Premiumがおすすめです。
「機械学習・ディープラーニングに興味がある」
「AIをどのように活用するのだろう？」
「文系の私でもプログラミング学習を続けられるだろうか？」
少しでも気になることがございましたら、ぜひお気軽にAidemy Premiumの【オンライン無料相談会】にご参加いただき、お悩みをお聞かせください！

Aidemy Premiumを詳しく見る

オンライン無料相談会を予約する