おすすめマーケティング記事 おすすめ 2018.11.16

【 AI実践講座 】 マーケター必見! 機械学習・ディープラーニングで売上や顧客数を予測する方法

 
 
 
目次:


 
 
 
 

EXCELにAIが搭載される時代に

 
先日、次期ExcelにAIが導入されることが発表されました。AIが最適なグラフを提案してくれたり、データの異常値を指摘してくれたり、画像認識で画像からデータを抽出したり(当初はAndroid版のみ)と、便利になりそうです。
 
ワタシとしては、日本でも多数存在するエクセル職人のみなさんが「便利だ」と喜ぶのか、「余計なお世話だ」と怒るのかに興味がありますね。
 
chiba_paper
Microsoft 365 Blog|Bringing AI to Excel-4 new features announced today at Ignite
 
というように、AIが本格的に身近になってきました。これまではSiriなどの音声アシスタントなど、多少精度が低くても困らないエンタメ用途が先行していた印象ですが、ようやくビジネスの現場、非エンジニアでもAIの恩恵を受けられるようになっていきそうです。
 
AI/人工知能業界では、「AIの民主化」という言葉がよく聞かれます。目指すは「誰でも自然に使えるAI」というところでしょうか。いろいろなツールが登場し、以前よりAI作成は簡単になってきました。
 
しかし、ツールがカンタンになっても根本がわからなければ使いこなせません。受け身で消費することはできても、何かを産み出すことは難しいでしょう。そこでこの記事では、AIで何ができるのか?という基本から、マーケターが特に気になるであろう経営数字(PV、CV、売上、客数、個別注文数など)を予測したい場合、どういう風に進めるのか? 実践方法を解説します。
 


 
 
 
 

AIとディープラーニングって違うの?

 
そもそもAIとは、英語の「Artificial Intelligence」の略語。訳はそのまま「人工知能」ですね。人間の知能、知的な活動を人工的に再現したものという定義が一般的です。人間の脳が行う活動、たとえば識別とか類推などを機械化していっています。「何かを自動化するコンピュータプログラムの一種」ぐらいに覚えておけばいいでしょう。
 
最近よく「機械学習」「ディープラーニング」という言葉もAI関連の記事に出てきます。これはどう違うのでしょう? どれもAIの一種なのですが、こういう関係です。
 
chiba_paper
Qiita|@ishizakiiii|機械学習超入門
 
大きく分けてAIには2つあります。
 

1)ルールベース

医療の病名診断やコールセンターなどに使われますが、「Aと入力されたらBと返す」のように、人間が全てのルールを決め、それに従って動くAIのこと。実際に使われているのは、何重にも条件が重なった複雑なものが多いですが。
 

2)機械学習

人間が行う学習を、コンピュータが行うことです。
 
その機械学習には、3つの学習方法があります。
 
2-1)教師あり学習
原因データと結果のセットで学習していく方法。データの数字の裏に潜むパターンを掴みます。これが一番よく使われています。
 
2-2)教師なし学習
答えがないデータを分類する方法。ECのレコメンドや顧客のクラスタリングなどに使われます。
 
2-3)教科学習
囲碁や将棋、自動運転など、膨大なデータを瞬時に判断して先に進めるように学習する方法。
 
そして、機械学習には上の学習方法とは別の軸として、2つの学習手法があります。
 
2-A)統計学系・機械学習
統計学の手法を使ってデータを学習していく手法。決定木、サポートベクトルマシーンなど、数多く存在するアルゴリズムを利用してデータの特徴を分析していきます。ビジネス系の予測ではこの手法が一般的です。
 
2-B)ディープラーニング(深層学習)
人間の脳内で行われている情報伝達方法を参考に作られた学習手法。データの特徴を分析する精度は高いものの、なぜそうなったのかが人間にはわからないので、ビジネス系では今のところ使いにくい手法でもあります。画像や音声、言語の学習はこちらがメインになっています。
 
専門家やエンジニアは、統計学系の機械学習とディープラーニングを分けることが多いですね。ディープラーニングだけがAIで、その他は機械学習と呼ぶ形です。この記事では定義通り、どちらもAIと書いています。


 
 
 
 

AIにできること

 
続いて、AIで何ができるのか。
 

  • 画像認識(デジカメの自動顔認識や笑顔認識など)
  • 音声認識(GoogleやAppleなどの音声入力、音声アシスタントなど)
  • 自然言語解析(長い文章から意味を要約するなど)
  • クラスタリング(ECの顧客に対するレコメンドなど)
  • 自動制御(クルマの自動運転や株式の自動売買など)
  • 生成(画像・音声・文章をつくりだすこと)

 
できることはどんどん広がって来ています。生成では最近、AIが生成した絵画が海外のオークションで約5000万円という高額で落札されたことが話題になりました。
 
参考記事:AFP|AI絵画、大手オークションで初の落札 予想額の40倍超
 
マーケターとして一番気になるのは、将来の経営数字を予測したり、事務作業を自動化することでしょうか。その分野でもAIは大活躍しています。
 

将来予測

「回帰分析」とも呼ばれる分野です。過去の実績を元に、将来の状態を予測します。予測は売上高やイベント入場者数といったマーケティングデータを始め、人口、天気など様々な対象に適用できます。コンピュータにとっては、お金でも人でも数字にしてしまえば同じだからです。
 
<具体例>
・過去の経営環境データから、未来の売上高や顧客数を予測
・過去のイベント実施状況と天気などのデータから、将来のイベントの集客数を予測
・ECで過去の施策や商品数、価格などのデータから、将来の売上を予測
 

RPA

今、テック系のビジネスショーなどで流行りの分野です。英語の「Robotic Process Automation」の略で、ホワイトカラーの事務処理を自動化することを指します。
 
<具体例>
・インターネット上の必要なデータに自動でアクセスし、取得したデータを所定の場所に保存
・大量のデータを自動的に確認し、異常データを検出
・手書き書類をデータ化し、所定の欄に入力


 
 
 
 

【消費者が見るAI】人間よりAIがいい分野は?

 
AIの活用分野は広がっていますが、消費者のAIに対する受け入れ度合いはどの程度なのか? MRCが定期的に行っているAI関連の独自定点調査の結果から見ていきます。
 
2017年の総集編では、様々な職業で「AIやロボットに置きかわってほしいか?」を聞いています。「置きかわると思うか?」という予想ではなく、「置きかわってほしいか?」という積極的な肯定での結果です。要は「人間よりAIにやってほしい仕事」です。
 
MRC独自調査:「人工知能(AI)&ロボット月次定点調査 2017年総集編」
 

ビジネス関連の仕事

 
左に行くほど、「AIやロボットに置きかわってほしい」仕事です。
 
chiba_paper
 
「受付」や「経理」が「AIやロボットに置きかわってほしい」と考えられています。「マーケティング」も、「全てAIに置きかわってほしい」が8.1%で「一部置きかわってほしい」が39.8%と高い数字です。こう見ていると、全般にAI化が進んでも抵抗が少ないようです。
 

ITエンジニアの仕事

 
chiba_paper
 
全般に「全てAIに」が10%程度、「一部AIに」が35%程度です。ちなみに、将来予測をするなど、AIを使いこなす人が一番下の「データサイエンティスト」です。
 

士業の仕事

 
chiba_paper
 
資格を持って専門業務を行う士業は、「官僚」や「議員」などが高くなっています。「政治家」も高いです。AI化というより、あまり好きではない仕事ランキングになっている気もしますが。実際には「弁護士」や「裁判官」といった法律関係の仕事は、過去のデータが多く残っているため、AI化が進むと考えられています。
 

公務員の仕事

 
chiba_paper
 
事務系の職種は「AIやロボットに置きかわってほしい」比率が高くなっています。「消防士」や「救急救命士」などの数字は低いですが、災害救助などの分野で、AIやロボットの活用が広がっています。
 
これらのデータを見ると、AI化が消費者サイドからも求められることがわかります。特に正確性が求められる作業が多い仕事は、AIを信じる人が増えている印象です。
 


 
 
 
 

マーケターに必須の「AI予測」のしくみ

 
データを見ていると、数年前「AIに仕事を奪われる!」などと批判されていたのがウソのようです。そんな抵抗感のなさから、AIはここ数年で一気に浸透してきました。しかし、AIの仕組みや開発の進め方はあまり知られていません。
 
マーケターとして一番気になる「経営数字の将来予測」に絞って、少しだけ理屈を掘り下げてみます。
 

AIが将来を予測する仕組み

AIは世の中の全てを数字にして、その相関関係を解き明かしていくものです。企業の売上額などの場合は、たとえば昨年1年間の売上高という結果と、その売上高に対して影響を及ぼしたであろう数々の要因の間にある相関関係を、「モデル」と呼ばれる方程式のようなものにします。
 
たとえば、来年の売上=(0.08×昨年の売上)+(0.21×営業社員数)+(0.05×サイトのPV数)……、といった具合です。この、「0.08」部分の相関性の強さと、「昨年の売上」などの要因に何を選ぶかがAI開発です。
 
そして将来を予測する場合は、逆に来年以降の要因の数値を方程式に入れて、来年以降の売上高の予測値が算出します。
 
より詳しく予測までのステップを見てみましょう。答え(過去の売上などの結果)のある教師あり学習と呼ばれる方法です。
 

経営数字を予測するまでのステップ

 
1)予測する対象・期間を決める
最初に、どんな数値を予測するか決めます。
・対象:企業全体、営業部ごと、エリアごと、店舗ごと、営業スタッフごと、など
・期間:年間、四半期、月間、日、時間帯、など
何の目的で予測するかを整理して、それに沿って対象と期間を決めます。経営予測をするのは手間とコストがかかるので、予測をどういうことに使うのかまで考えておきます。たとえば採用戦略、仕入れ数量策定など、様々な用途が考えられます。
 
2)必要な精度も決めておく
AIモデルを開発中、なかなか精度が上がらないことがあります。その場合、新たにデータを用意したり、細かいチューニングをかけるのですが、ある程度まで精度が上がったら、それ以上に精度を高めるのは大変な労力がかかります。そこで、最初に必要な精度を決めておけば、チューニングを止めたり、開発自体を止めたりという判断がしやすくなります。
 
必要精度を決める目安は、現在の方法での精度や、ベテラン社員が予測した場合の精度を超えるぐらいに設定する場合が多いようです。
 
3)データを集める
予測対象に影響を及ぼしそうなデータを社内、社外から集めます。どんなデータかは次の章で説明しますが、300や500種類のデータを集めることも珍しくありません。
 
4)データを整形する
「データクレンジング」と呼ばれる作業で、データを機械学習できる形にしていきます。
 
●文字データの数値化
性別は女性=1、男性=2にするなど、文字データを数値化します。専門的には「カテゴリデータのダミー変数化」と呼ばれます。
●データ変換
たとえば住所データを店舗からの距離に変えるなど、必要な場合はより予測に関係の深いと考えられるデータに変換します。
●欠損値の補間
データの空欄を埋めます。平均値、中央値、最頻値などで補完するのが一般的です。サンプル数が豊富な場合は、そのサンプルごと削除する場合もあります。
●異常値の処理
明らかに異常な数値があれば削除して補完したり、そのデータごと削除したりといった処理を行います。
 
5)学習してモデルを作成
データを訓練(学習)用とテスト用に分け、訓練用データで機械学習していきます。一般的には、オープンソースで無料提供されている「scikit-learn(サイキットラーン)」というライブラリにある、様々なアルゴリズムにデータを入れて、モデルを作っていきます。
 
6)使うデータを選別する
モデル作成時に、500種類などのデータから、実際の予測に使うデータを選んでいきます。学習して試しながら選別すると同時に、それぞれのデータがどの程度結果に影響を及ぼしているのかを判定してくれるアルゴリズムもあります。
 
7)テストデータで予測・検証する
学習してできたモデルに、テスト用データを入れて、正しく予測できているかどうかを検証します。この検証で精度があまり高くなければ、上の5に戻って使うアルゴリズムを変えたり、3に戻って新しいデータを用意したり、を繰り返します。「ハイパーパラメーターチューニング」と言って、アルゴリズムの内部をいじると、精度が少し上がる場合もあります。
 
8)完成したモデルで将来の予測をする
モデルが完成したら、選別したデータの最新の数値をモデルに入れ、予測をします。
 
9)運営しながらブラッシュアップ
一度完成したら終わりではなく、新しいデータができれば、モデルを改訂していくと精度が上がっていきます。たとえばECを始めるなど売上に影響を与える要素が増えたり、SFAやMAの導入で新しいデータが取得できるようになった場合などは特にモデル改訂を試してみるべきです。


 
 
 
 

チャットインタビュー【経験者が語るAI】
「外食店舗の売上予測をしています」

 
「本当に500種類もデータを集めてるの?」と思った方も多いでしょう。そこで、実際にAI(機械学習)で経営数字の予測をしている経験者にチャットインタビューした模様をご紹介します。実際に様々なデータを集められています。
 
※手軽に定性調査ができるチャットインタビュー・サービス「Sprint(スプリント)」を利用しています。
 
sprint_profile
外食産業の経営企画室のような部署に勤めるモニタさん。AIによる経営予測は2014年から始めたそうです。
 
sprint_profile
それまでは「回帰式」で予測していたとか。いくつかの変数(気温と売上とか)の相関関係を求める分析方法で、エクセルの「分析ツール」のメニューにある「回帰分析」でもできますね。
 
sprint_profile
ファンドの意向もあって機械学習を始め、最初は外部企業に依頼したそうです。機械学習を行う企業に片っ端から声を掛けたとか。
 
sprint_profile
予測する数字は各店舗の日別の売上額です。
 
sprint_profile
時間別も試したそうですが、予測精度が上がらなかったそうです。AIは「どれだけ試しても実用レベルの精度にならない」ということがあります。うまくいかない理由もはっきりとはわかりません。ただ、重要なのはAIに学習させるデータです。
モニタさんは500種類のデータを集めたそうです。
 
sprint_profile
GISデータと呼ばれる人口、商圏動向、天気などのデータが多かったとか。官公庁から無料でダウンロードできるデータもありますし、販売もされています。
もちろん自社の経営データも必要です。
 
sprint_profile
販促データ、商品データ、組織データなどを用意されたそうです。「店長の性別とかアルバイトの定着率なんて売上にそんなに関係あるかな?」と思いますが、AIの場合は関係なさそうなものでも集めて試してみて、実際には30~50種類のデータに絞るのが一般的です。
 
sprint_profile
モニタさんの会社では40種類ほどに絞って予測しているとか。気になる予測精度は結構高いです。標準偏差で3%以内に収まるとか。これは射撃の的の真ん中ゾーンにだいたい収まるという感じです。以前の回帰式は8%程度で、これも凄いですが、AIでかなり精度が上がっています。
 
sprint_profile
それだけの精度があれば、いろいろなことに使えそうです。
 
sprint_profile
モニタさんの会社では、人件費(アルバイトの人数決定など)、工場の生産調整(セントラルキッチンで生産する食材数量決定など)などに活用しているそうです。これらを勘ではなく、データに基づいて行えると、利益率向上に貢献するでしょう。


 
 
 
 

業種別、どんなデータを集めるべきか

 
モニタさんとのインタビューでも、データの話が中心になりました。それは当然で、「AI開発の精度はデータで8~9割決まる」と言われます。一見すると、AIをつくる、機械学習によるモデル作成が難しそうに思えますが、そこはそれほど難しくありません。コンピュータ・プログラムでは、数行に収まる場合もあります。
 
では、具体的にどんなデータを集めるべきなのか、業態別にいくつか紹介します。これを全て集めるのは難しいので、可能なデータを集め、必要であれば作成し、将来に向けて集計し始めるための参考です。
 

1)小売店舗

店舗の売上額や来店客数、各メニューの注文数などを予測する場合
 
●天気データ
天気、気温、湿度、降雨量、降雪量、天気予報の降水確率など
●人口データ
周辺地域の人口、世帯数、年齢別人口、昼間人口、夜間人口など
●消費者データ
周辺消費者の世帯支出、年収など
●商業統計データ
周辺競合店舗数、売場面積、売上額、メニュー数など
●移動手段データ
車の登録数、周辺駐車場台数、ガソリン価格、電車・バスの本数など
●来店データ
総来店数、時間別来店数、性別比、年齢比など
●POSデータ
メニュー別注文数、顧客単価など
●店舗データ
メニュー数、各メニュー価格、従業員数、各従業員の経験年数、店内調理の割合など
 

2)ITサービス

サイトのPV、UU、CVなどを予測する場合
 
●サイト属性データ
ページ数、カテゴリ数、ページ文字数、ブログ記事数、EC商品数など
●アクセス解析データ
自社サイトのPV、UU、CV、直帰率、滞在時間、年齢比、性別比など
●広告配信データ
メディア別広告費、インプレッション数、クリック数など
●購買データ
商品別購買数、購買単価など
 

3)BtoB・法人営業系

売上額、新規顧客数、利益額、見込み顧客が契約する確率などを予測する場合
 
●企業データ
過去の売上額、部門別売上、営業別売上、社員数、社員別経験年数、資本金額、拠点数など
●営業データ
見込顧客数、成約率、電話回数、訪問回数など
●顧客データ
社員数、売上額、資本金額、部門人数、担当者の役職、職種、年齢、性別など
●景況データ
GDP、業界団体総売上、加盟社数など
 
以上、例として並べましたが、他にも様々に考えられます。


 
 
 
 

無料でデータを集める方法

 
上のデータ例には、自社ではデータが取れないものも多く含まれています。チャットインタビューでも出てきましたが、そういったデータは外部から集めたり購入したりできます。官公庁を中心に、無料でもかなり様々なデータが入手できますので、主だったものを紹介します。
 

総務省統計局「e-stat」

chiba_paper
政府統計の総合窓口「e-stat」
 

気象庁

chiba_paper
気象庁|過去の気象データ・ダウンロード
 
リアル店舗はもちろん、ネットビジネスでも重要な天気のデータは、気象庁のサイトから無料でダウンロードできます。都道府県別・地域別に、気温・降水・日照・積雪・風・湿度・雲量・天気が、期間を指定して入手できます。平均や最高、最低、日平均気温○℃以上の日数といった設定も可能です。
 

「jSTAT MAP」

chiba_paper
総務省統計局|jSTAT MAP
 
「地図で見る統計」という名前通り、マップに自社の商圏を設定し、総務省が提供している各調査のデータを地図上に表示してダウンロードできます。「店舗を中心とした周辺半径300m内の世帯総数を面積按分集計して表示する」とか「商圏内の事業所数を表示する」といったことが可能です。完全無料で、総務省統計局のデータなので、信頼性も高いデータです。
 

地域経済分析システム「RESAS」

chiba_paper
経済産業省・内閣官房|RESAS
 
地域経済関連の産業構造や人口動態、人の流れなどに関する政府や地方自治体、民間のデータを集約したサイトです。人口、企業数、製造品出荷額、農業産出額、有効求人倍率、外国人訪問数など、バラエティ豊かなデータが無料でダウンロード可能です。
 

不動産価格データ「GEEO」

chiba_paper
株式会社おたに|GEEO
 
企業でも自社で収集したデータを公開する例が増えてきました。代表的なのが、不動産価格を公開している「GEEO」です。無料でも地価公示価格や予測制約価格が表示・ダウンロードできます。Pro版(月額税込\5,400/名~)ならさらに各種取引事例等のビッグデータがダウンロードできます。
 
他にも数々のサイトがあります。「(関心のある分野)+オープンデータ、ダウンロード、API」といったキーワードで検索すれば、行き当たると思います。


 
 
 
 

プログラミング不要でAIを作成できるツール&サービス紹介

 
データを集めたら実際に予測するパートです。ここは3つの選択肢があります。
 

1)外部に委託

AI、機械学習、データサイエンティストのようなアピールをしている会社に委託します。費用は今のところ数百万円はかかります。
 

2)自社で開発

データサイエンティストや機械学習エンジニアが社内にいたり、採用できれば、Pythonでプログラミングして開発していきます。
 

3)ツールを利用

これから増えていきそうなのが、データを入れれば予測のためのAIモデルを作成してくれるツールやサービスです。現在でもいくつか存在するのですが、正直なところ、経験者でなければ、まだまだ難しいのが実情です。しかし、低コストなサービスもあるので、試すにピッタリです。代表的なツールを2つ紹介します。
 
 

Amazon Machine Learning

chiba_paper
AWS|Amazon Machine Learning
 
クラウドストレージの巨人、AWS(Amazon Web Services)の機械学習サービス。Webブラウザ上でCSVデータを読み込み、モデルを作成し、定期的に未来予測するという一連の流れをプログラミングなしで行えます。初心者でも簡単、とは言い難いですが、自分でプログラミングすることを思えば、かなり助かります。料金もモデル構築が0.42USD/時と、1時間50円程度です。特にAWSにデータを保管している方にはお勧めです。
 
手順は下記のチュートリアルに詳しく書かれています。
AWSドキュメント|チュートリアル: Amazon ML を使用してマーケティングオファーへの応答を予測する
 

Neural Network Console

chiba_paper
SONY|Neural Network Console
 
ソニーが開発した、プログラミング不要でディープラーニングが行えるツールです。クラウドと、オンプレミス(自分のPC)で使用可能です。
 
chiba_paper
使い方は上の画像のように、データ入力やパラメーター指定など、必要なパーツをブロックのように組んでいくスタイルです。なので、プログラミングはしなくていいものの、プログラミング知識がなければ、ブロックを組めません。
 
ただ、サンプルプログラム(tutorial)もあるので、試しやすいと思います。なんといっても無料ですから。


 
 
 
 

結論|今からデータを取り始めてみるのが吉

 
駆け足で経営数字などの予測に関するAI開発の手順を解説してきました。予備知識がないと難しいかもしれません。しかし、AIは待ったなしでどんどん会社の中に入ってきます。そのとき、自社の状況を客観的に把握できるデータがないと、AI化はできません。
 
特に予測系は少なくとも1年は過去データが必要になります。3年、5年と蓄積されていれば、より精度が高まります。とすると、AI化を決めてからデータを取り始めていたら、開発に着手できるのが1年後などと先送りになりかねません。
 
そこで、今から必要と思えるデータを取り始めませんか、というのがMRCからの提案です。「AIは8割以上データで決まる」を覚えておいてください。
 
 
最後までお読みいただき、ありがとうございました。今回紹介した「インターネットの利用に関するアンケート」は、下記から無料でダウンロードできます。記事に共感いただけましたらシェアやFacebookページのいいね!もぜひ。
 
 
 

■Fastask(ファストアスク)とは?

fastask

ジャストシステムが提供するセルフ型ネットリサーチサービス。調査する企業が自分で質問を作成するスタイルで、ローコスト&スピーディな調査が可能です。従来調査の半額~10分の1の費用で、即日~数日で調査が完了します。

 
 

■Sprint(スプリント)とは?

sprint_top

ジャストシステムが2017年8月にリリースした、「わずか5分でターゲットとなる消費者に出会えるチャットインタビューサービス」で、インターネット上で定性調査のインタビューができます。従来のリアル・インタビューよりもはるかにスピーディーで低コスト、リアルタイム性があるのが大きな特徴です。

更新情報を
WEBプッシュでお届けします。

セルフ型アンケートサービス

Fastask

高品質なネットリサーチを圧倒的なスピードと次元の異なる低コストで。無料トライアル実施中。