2020年11月30日、「転職エージェント&データサイエンティストが語るAI転職市場」と題し、AI未経験エンジニアのキャリア戦略を、転職エージェントと現役データサイエンティストが語るセミナーが開催されました。
株式会社キャライフから代表取締役の金子勲氏と人材紹介事業部の吉野佑衣氏、そしてITベンチャー所属のデータサイエンティスト足立悠氏をお招きし、3氏の講演と質疑応答が行われました。進行を務めたのは、株式会社アイデミーのカスタマーサクセスリーダー、齋藤圭です。
vol.3では、足立氏の講演をお届けします。
足立悠氏
ITベンチャー所属 データサイエンティスト
これまでにメーカーやITベンダーで、データ活用や人材育成支援、各種モデル開発などに携わる。雑誌記事や書籍の執筆、セミナー講師としても活動中。
データサイエンティストの仕事とは?
足立:私はフルリモートで仕事をしているデータサイエンティストです。普段は、お客様のデータ活用の支援、モデル開発のほか、セミナー講師を務めたり、雑誌に寄稿したり書籍を執筆したりもしています。
齋藤:データサイエンティストとはどのような仕事なのか、現役の足立さんの目線からお話ししていただけますでしょうか。
足立:会社によってデータサイエンティストの職務範囲は異なってくると思いますが、私が思うデータサイエンティスト像をお話ししますね。
私は、ややコンサル寄りの仕事だと感じています。お客様と話をして課題を明確にして、その中からデータを使って解けるものを選定し、優先順位をつけることが、手を動かして作業する前に大事なことです。データがあって、前処理して、機械学習のアルゴリズムを使って“ゴリゴリ”とモデルを開発するその前段階ですね。
データ分析のフレームワークに、CRISP-DM(CRoss Industry Standard Process for Data Mining)というマネジメント技法がありますが、その最初のプロセスにビジネス理解のフェーズがあります。そこが一番大事で、課題の発掘から分析項目に落とし込む部分で失敗すると、後の工程である前処理やモデリングが全部無駄になってしまうということもありえるんです。データサイエンティストは、そこからモデリングまでを中心に行う人ではないかなと思っています。その後の工程は、AIエンジニアの人と協力して進めますね。
データサイエンティストの具体的な案件
足立:データサイエンティストが活躍できる業種は、製造業からウェブ系、マーケティング系まで幅広いです。
具体的な案件としては画像認識や物体検出、異常検知、さらには現実の課題への適用、時系列の解析などもあります。
自然言語処理も増えてきた感じがします。業界を見ても、最近は、自然言語処理が“熱い”ですし、もっと増えてくるかなと。ただ、これはあくまでも私の周りの話なので、扱うデータや提供するサービスによっては、またちょっと話は違ってくるのかと思います。
製造業での事例
齋藤:今、チャットで視聴者の方から質問をいただきましたので「製造業の事例」について、少し詳しくお話しいただくことはできますか?
足立:あまり具体的になりすぎないようにしますが、話せる範囲では、機械の異常検知、故障予測が多いですね。
例えば、穴を開けるとか削るとか、そういった工作機械の部品交換について「定期的なメンテナンスではなく、壊れそうになったピンポイントのタイミングでメンテナンスに来てもらうことで、修理費用を下げたい」という時に、故障予測や異常検知の要望が出てきます。
製造業には時系列データが多いですね。例えばPLC(Programmable Logic Controller:シーケンス(順番)を制御するコントローラー)から出ている電流・電圧など、機械で取っているデータを使って故障予測をしたいという話もあります。既に取ったデータを使って予測や異常検知を、と言われるのですが、意外とデータが足りないケースががあります。
多くの場合、機械学習を使って解決したいのは、ベテランの知見をモデル化することです。さまざまな業界で熟練者が定年退職などで不足し、残ったメンバーで技術継承ができていない場合に、スキルが浅くてもベテランのレベルでやるために機械学習の力を使いたい、というケースですね。そのためには、ベテランが機械の故障を予測するために何を見ていたのか、その時に見ていたデータを取りにいかないとダメなんです。
もしそれが数値として取れておらず「そろそろ壊れそうな音」だった場合は、振動計をつけなければ欲しい予測結果は出ないですよね。そこまで来て、データ不足、項目不足となり、最初に戻るわけです。
案件にかかる時間と成功の確率
齋藤:ありがとうございます。引き続き質問をいただいています。「これまで何件くらいの案件を経験されましたでしょうか? 1件の解決に何ヶ月くらいかかりますでしょうか」、そして「上手くできる確率はどのくらいでしょうか。成功報酬の場合はありますか」という内容です。
足立:案件によって規模や工数は異なるので、1件をどう数えるかですが50件以上は経験していると思います。
1件あたりの解決までは、1ヶ月60時間の稼働で半年という件もあれば、とりあえず1回だけPoCを回したいので「時間がないからこの期間内に」ということで、32時間×3ヶ月で終わった件もあります。
一定期間やってみて、それをお客様に提供し、お客様側が自分たちでもやってみてから、その後もう一度連絡をもらい、その結果、横展開するのか、新しいものにするのか、という場合もあります。お客様自身が「自分たちでやりたい」となれば、作ったスクリプトなど一式をお渡しする形で納品してしまうこともありますね。
上手くできる確率についてですが、何らかの形でいつも結論は出しています。
結果が出なかったものは、最初から「データ項目が不足していますが、これでもやりますか?」と聞いて「とりあえずやってみてください」と言われたケースです。だいたい失敗しますよね(笑)。
報酬についてですが、システム開発とは違って、データ分析はやってみなければわからないところがあります。そのため、システム開発のような成功報酬ではなく、提供してもらうデータの質や量から見積もって報酬をいただきます。
自然言語処理の案件とは?
齋藤:続いて、「自然言語処理に関してはどのような案件が多いのでしょうか」という質問が届いています。
足立:こちらも、あくまでも私の場合のお話しをしますね。例えば、文章の要約、書かれている文章がポジティブなのかネガティブなのか、口コミを解析してほしいという案件などがあります。評判、口コミを全部読んでいくのが大変なので、要約してキーワードだけ抽出し、その良し悪しを判断をするもののが多いですね。
他には、感情を推定したり、文章からランキングを決めたり、働いている人の意欲を定量化したり、細かいレベルではいろいろとあります。
齋藤:次の質問は「自然言語処理が業界で“熱い”、というのは具体的にどういうことでしょうか」というものです。
足立:研究者の方々が編み出した、さまざまな手法を私は使わせてもらっているわけですが、日々新しく、どんどん精度が上がってきているので、ビジネスでも使いやすくなっている、ということです。
特にニューラルネットワークを使ったものですね。文脈を考慮して特徴量を取り出すなどの手法がいろいろと出てきています。少し前にはBERTなども出てきましたし、深層学習を使った文章分類も精度が上がってきています。
データサイエンス業務に携わるようになった経緯
齋藤:足立さんがデータサイエンス業務に関わるようになった経緯についての質問もありましたので、ぜひお話しいただければと思います。
足立:私は元々システムエンジニアだったんですよ。社内SEだった時に、社内のシステム開発、運用、導入などの仕事をしていました。今から8年くらい前に「データを扱う仕事が流行っているぞ」と思う時期があって、時代はこっちに行くのかな、と“ふんわり”思っていました。
当時の私には、SEという仕事が自分に向いているのかどうかわからず「このままで大丈夫かな」という漠然とした不安があったんです。それなら、データを扱うような仕事ってどうなんだろう、在籍していた会社でちょっとやらせてもらえないかな、と思って、いろいろ調べてみました。他の部署の同僚に話してみたら「なんかできそうな気がする」と思ったので、自分で勉強しながらやらせてもらった、というのが始まりですね。
その時、最初にやったのが自然言語処理だったんですよ。今から考えると、確実に入り方を間違っていたな、と(笑)。おそらく最初は、タイタニックデータセットなどの、RDBに入っている構造化データから取り組むのが一番いいはずなんですよ。いきなり非構造化データというのは間違ってますよね(笑)。
私はよくわからないままネット情報やオープンソースを使ったり、ツールにどんなデータを入力したら、どういう出力になるか調べたりしながら自己流で取り組んだので、だいぶ遠回りした気がします。
その後はデータ分析などを行うベンチャー企業に転職するなどして、いろいろやらせてもらって今に至る、という感じですね。
データサイエンティストに向いている人とは?
齋藤:どのような人がデータサイエンティストに向いていると思いますか? 視聴者の方が気になるテーマだと思いますので、ぜひお願いします。
足立:あまり偉そうなことは言えないのですが、私が思うのは「お客様と向き合って、何を欲しているのか聞き取って、それを具現化できる人」ではないかと思います。
“データをもらって、ゴリゴリやっている”だけでは、絶対に良い特徴量は作れません。有効な、結果に対して影響のある特徴量を作る、つまり前処理をして特徴量を作るには、ドメイン知識や業務知識を持っている方の話を聞くことです。そういう方たちの話を聞いてモデル化しないと、いいモデルはできません。私も駆け出しの頃はこれが不足していて「失敗した!もう1回やり直し!」という経験をしてきたので、そこが一番大事かなと思います。
データ分析をする時には、データを集計して、可視化して、データの概要を理解する「データ理解のフェーズ」と、データを理解した上でデータの前処理を設計して実装する「前処理のフェーズ」、アルゴリズムを使ってモデルを作る「モデリングのフェーズ」などがあります。
ここに自動化ツールが出てくると、関数をポンと投げるだけで良い感じに最適化をしてくれますよね。例えばモデリングに関しては、最近はオープンソースでも自動化ツールなどがいろいろ出てきています。そうなってくると、後は“機械にお任せ”となる部分が多くなると思います。
すると、データサイエンティストという生身の人間が勝負できるのは、課題を定義してそこから作業項目に落とし込む最初の部分と、前処理なんですよね。それが苦手でなければ、データサイエンティストに向く人なのかもしれません。
私は、データ前処理している時間が長いです。最近は「データマエショリスト」と検索すると、職種名にもなっているみたいですね(笑)。お客様とお話しする時間以外の7~8割が、ひたすら前処理です。こういう泥臭い仕事が嫌いでなければ、データサイエンティストという職種は面白いのではないかと思います。
データサイエンティストの働き方
足立:データサイエンティストの仕事は圧倒的に東京に多いと思いますが、昨今は大阪や福岡にも増えてきたという話も聞きます。通勤が難しくない方であれば、まずは会社勤めで経験を積むのが手っ取り早いかもしれませんね。ある程度、自分一人でも回せるようになってから、リモートワークするのがいいかなと思います。
私は、田舎生まれの田舎育ちで人混みが苦手なため、都市へ通勤するとグッタリして帰ってくることが多かったこともあり、3年くらい前からリモートワークを始めました。今は打ち合わせも全てオンラインでやっています。東京のお仕事もありますが、実際には行っていません。
最近は、テレワーク推進というキーワードもあるくらいなので、世間がガラッと変わってだいぶやりやすくなったなという気がしますね。こういう働き方もできる、という例として参考にしてください。
齋藤:視聴者の皆様は、現役データサイエンティストの足立さんのお話から具体的なイメージが湧いたのではないでしょうか。足立さん、どうもありがとうございました。
(vol.4に続く)