大量にデータを集めておく

AIを導入しようと思ったら、まず「大量にデータを集めておく」ことが必要です。わずかなデータ量で学習させようとしても、現在のディープラーニングを用いて構築したモデルの精度は上がりません。「何を分析したいのか」によって、どのようなデータを使うかが決まってきます。また、データの種類としては、構造化データが扱いやすい形式です。具体的には、ERP(Enterprise Resources Planning)やCRM(Customer Relationship Management)などで蓄積された業務データや、Excelなどの表形式のデータです。それに対して、画像や音声のような非構造化データは、そのままでは扱いにくいデータの典型となります。といっても、その扱いにくい非構造化データを構造化データに変換する部分こそ、まさにディープラーニングがいちばん得意とする部分です。ここで、構造化データと非構造化データの具体例を紹介します。構造化データと言われるのは、POSデータ、JSON、XMLデータ、Excelデータ、CSVなどです。対して、非構造化データは、画像データ(jpeg)、音声データ(mp3、wav)、文字データ(txt) などを言います。これまで画像、音声、手書き文字などの非構造化データは、定量的な情報としてはコンピュータ上でほとんど扱えませんでした。それが一気に扱えるようになったことが、ディープラーニングのお陰ともいえる部分です。画像、音声などの非構造化データを構造化データに変換できたら、あとはデータベースとして自在に扱えます。その分野はAlとかディープラ一二ングというよりも、通常のプログラム開発の範疇ですから、APIを利用してさまざまな処理を加えていくことができます。