生成AIの革命児「ChatGPT」の登場とこれから

こんにちは、GMOアドマーケティングのM.Hです。
この記事を執筆したのは2023年の3月末ごろですが、まさにこの月は生成AIの歴史の転換点として今後語り継がれるだろうと思うくらい、毎日毎日さまざまなニュースが舞い込んできました。
おそらくこの記事を見てくださっている方の中にも同じような感想を抱いている方は多くいるのではないかと思います。
話題のトレンドを掻っ攫ったOpenAIのChatGPTのAPI公開、そしてGPT-4の発表。さらにはGitHub Copilot Xの登場。
私自身もこの転換期において業務の内容、そして進め方に関してもガラリと変わった印象があります。
 

はじめに

ChatGPTについての記事を書くにあたり書きたいことが多すぎるため、記事をいくつかに分割して執筆することにしました。執筆次第この章にリンクを追加していきます。

生成AIとは何か

そもそもGenerative AI(生成AI)とは、文字通り何かを「生成」するためのAIです。元々AIといえば「予測」を主たるタスクとするものという様な印象がありますが、それとは違い学習データを基にして新しいデータや情報を生成していくことを目的としています。
 
生成AIと従来のAIとの違いは主に以下のような点があります。
 
項目 生成AI 従来のAI
モデル例 ChatGPT, GPT-4, DALL-E, MusicLM 線形回帰、ロジスティック回帰、CNN, RNN, K-means
目的 データの生成(テキスト、画像、音楽など) データの予測、分類、クラスタリング
モデル構造 敵対的生成ネットワーク(GAN)、Transformerなどのアーキテクチャ 回帰、決定木、ニューラルネットワーク
出力形式 テキスト、画像、音楽など 予測値、クラスラベル、クラスター
応用例 多言語翻訳、コード生成、画像修正 価格予測、画像分類、時系列予測、顧客のセグメンテーション
 
データを生成すると言ってもその応用例は広範囲に及びます。その中でも特に最近ではChatGPTをはじめとしたテキストの生成AIがかなりホットになっていますね。数年前はテキスト生成タスクを含む自然言語処理分野はブームが下火になっていたことを考えるとその躍進は凄まじいです。
また、「テキスト」と一言で言っても、自然言語的な文章からプログラミングコード、さらには表までも生成してくれるので、その応用範囲が非常に広いこともブームにより火を点けているように思います。
 
では、領域をかなり絞ってテキスト生成AI(主にOpenAIまわり)の最近の変遷・進化について改めておさらいしてみます。
 

テキスト生成AIの最近の動き(OpenAIまわり)

実際はもっと昔のトピックスも大事ですが、本記事では取り上げずTransformer発表からの流れを追ってみたいと思います。
 

2017年:Transformerの発表

  • 従来、自然言語処理は前半の単語たちの存在を受けて後半の単語たちが生成される、いわゆる「時系列」のデータと見なせるという考えから、再帰型ニューラルネットワーク(RNN)やそれを基盤とする深層学習モデルが用いられていました。
  • しかしこの年、セルフアテンション機構を用いることにより、より長いシーケンスを効率的に処理できるTransformerが提唱され、このモデルの登場によりテキスト生成をはじめとする自然言語処理タスクの礎となりました。現在世間を賑わせているモデルはほとんどがこのTransformerをベースにしています

2018年:GoogleによってBERTの発表

  • Transformerを基にした自然言語処理モデルとして発表されました。文脈を考慮した自然言語処理モデルとして非常に高い精度を叩き出し衝撃を与えました。このモデルではテキスト生成には特化していませんでした。

2018年:GPT-1(Generative Pre-trained Transformer 1)の登場

  • OpenAIが発表したGPT-1は、BERTと同じくTransformerをベースとしたモデルで、テキストの生成タスクに特化したものでした。

2019年:GPT-2の登場

  • GPT-1の拡張版として発表されたGPT-2はパラメータ数が約13倍程度も増え、非常に大規模なデータセットで学習されたことで驚異的なテキスト生成能力を有していました。
  • 当時、フェイクニュース作成や過激な思想の主張など悪用される懸念からモデルの一部のみが公開されるなどニュースになりました。
  • 執筆日現在、GPT-2までのモデルがオープンソース化しており、誰でもモデルをダウンロードして使うことができます。

2020年:GPT-3の登場

  • GPT-2と比べてパラメータ数は約115倍になり、性能はさらに飛躍しました。
  • これまで自然言語処理モデルの基本となっていた、特定のタスクに特化させるためのファインチューニング学習すら、もはや基本的に必要ないというレベルにまで達することになりました。

2020年6月11日:GPT-3のAPIが公開

  • 執筆日現在、GPT-3以降のモデルはオープンソース化はしておらずMicrosoftによって基礎モデルが独占されている状態ですが、OpenAIによってAPIが公開され、各モデルを利用したり独自にファインチューニングしたりできるようになっています

2022年3月15日:GPT-3.5の登場

  • GPT-3のモデルからパラメータ数はおおよそ2倍となりました。
  • APIとしては、入力した文章を指定した指示文に基づいて編集したり、文中に文章を挿入してくれたりする新しい機能が追加されました。

2022年11月30日:ChatGPTの登場

  • GPT-3.5のモデルを人間が作成した対話形式の正解データを基にチューニングした、対話型に特化したモデルを作成し、このモデルを基にChatGPTというWebサービスが発表されました

2023年2月13日:日本でChatGPT Plusが利用可能に

  • ChatGPTというwebサービスは元々無料で誰でも使える状態でしたが、月額課金制のサブスクリプションとしてChatGPT Plusが公開されました。
  • 優先利用可能であることと、この後説明する新しいモデルGPT-4をwebから使用できる(制限あり)メリットがあります。

2023年3月1日:ChatGPTのAPI発表

  • ChatGPTを用いて新しいサービスやロジックを作りたいニーズに応える形で、新しくAPIが公開されました。
  • APIのエンドポイントとして新たに「chat/completions」が追加されました。対話特化のエンドポイントとなり、以前の会話内容を明示的にモデルに与えることができます。必ず対話形式にする必要もなく、これまでの文章生成と同じ形で用いることも可能です

2023年3月14日:GPT-4の登場

  • ChatGPTのベースのモデルだったGPT-3.5をさらに改良したモデルとして発表されました。発表前はパラメータ数が100兆個まで飛躍的に増えるという噂もありましたが、実際は約1兆個となり、GPT-3.5からは3倍程度の増加となりました。
  • 論理的思考がかなり強化され複雑な問題に対処しやすくなっているほか、回答の正確性や安全性もGPT-3.5からかなり強化されました。
  • また、入力には画像とテキストを織り交ぜることができるマルチモーダルなモデルとなりました。
  • GPT-4もAPIを用いて使用することができますが、執筆日現在ではwaitlistに別途登録してOpenAIからの許可を待つ状況になっています。

2023年3月24日:ChatGPT Pluginsの登場

  • OpenAIが公式にChatGPTにプラグインのサポートを追加したことを発表しました。他のサービスとの連携が可能となり、最新のデータにアクセスできないモデルの欠点を補って出力できるようになりました。
  • APIも用意されており、個人や会社が保持しているナレッジと連携させることもできます。
  • 執筆日現在ではwaitlistに別途登録してOpenAIからの許可を待つ状況になっています。
2023年に入ってからのトピックスにフォーカスしているので密度が濃くなっています。
これらに加えて更に便利にChatGPTのサービスを利用できるようなブラウザの拡張機能も次々出てきていますし、OpenAI以外にもテキスト生成やコード生成、検索型のAIなども発表されていますが、それらも入れてしまうと無限に項目が増えてしまうため、省略しました。

テキスト生成AIの強みと弱み

それでは、テキスト生成AIは現状ではそもそも何ができて、何ができないのでしょうか。本記事ではそれぞれ「強み」と「弱み」という観点で掘り下げたいと思います。

強み

大量データの処理能力

機械学習モデルは人間よりもはるかに多くのデータを高速で処理し、情報を抽出・生成できます。これにより、情報検索や生成タスクを効率的に行えます。

自然言語理解と生成能力

生成AIは、自然言語処理を使って人間の言語を理解し、それに基づいて画像やテキストなどを生成できます。これにより、人間とのコミュニケーションや文章生成タスクで自然かつ適切な表現が可能になります。

柔軟性と多様性

生成AIは、さまざまな分野やタスクに適用し、特化した知識やスキルを習得できます。これにより、マーケティングコンテンツ生成から専門的な文章生成まで、幅広い分野で活躍できます。

弱み

情報の正確性と信頼性の問題

機械学習モデルは訓練データに基づいて学習するため、生成AIの知識は訓練データに依存します。このため、誤情報やバイアスが意図しない結果や有害な情報生成につながることがあります。また、最新情報や未知分野の知識が不足することがあります。

不適切なコンテンツ生成の危険性

生成AIは不適切なコンテンツやディープフェイクなどを作成する可能性があります。これにより、個人のプライバシーや権利が侵害されたり、著作権や責任の所在が曖昧になり、法的問題が生じることがあります。

人間のクリエイティビティや感性への依存

生成AIは訓練データに基づいて文章を生成するため、人間のクリエイティビティや感性を完全に再現することが難しいです。これにより、生成されたテキストが感情や独創性に欠けることがあります。
 
 
総括すると、生成AIは大量のデータ処理能力、自然言語理解と生成、柔軟性と多様性といった強みを持ちながら、情報の正確性と信頼性、倫理的・法的問題、人間のクリエイティビティや感性に対する依存といった弱みも抱えています。これらの課題に対処しながら、生成AIの技術を適切に活用することが重要になってきます。

テキスト生成AIのこれから

ここ数ヶ月でブレイクスルーを迎えたテキスト生成AIの世界ですが、今後はどのように成長していくでしょうか。一旦ChatGPTそのものに訊いてみて、それぞれの項目について筆者が思うことを書いてみました。
 

GPT-x: より強力なGPTアーキテクチャを持つモデルが登場し、知識の質や推論能力、自然言語理解が向上するでしょう。 これにより、一般的な質問や専門的な質問に対してもより正確で信頼性の高い回答が得られるようになります。
執筆日現在での最新モデルはGPT-4ですが、このモデルはパラメータ数で言うと約1兆個です。 モデルの推論能力や自然言語の理解力が向上するには、パラメータを更に増やすか、モデルアーキテクチャを工夫することが必要ですが、現時点で既に非常に高性能なモデルとなっていることを考えると、さらに大規模なモデルを巨額を投じてローンチする流れは暫くはやってこないのではないかと思いました。
ドメイン固有のモデル: 特定の分野や業界に特化したモデルが開発され、それぞれの分野で最適化された解決策を提供できるようになります。 例えば、医療、法律、教育などの専門分野で活躍するモデルが増えるでしょう。
こちらはGPT-4の発表後、非常に盛り上がっている分野です。自然言語の中にはいろいろな語彙もそうですが、細かいニュアンスも含まれているため、この意図を機械的に汲み取れるモデルをインフラストラクチャーとして、様々な分野への応用研究やサービスが次々公開されていくと思います。
マルチモーダルAI: 画像、音声、テキストなど複数のデータタイプを統合的に扱えるモデルが登場します。 これにより、より豊かなインタラクションや状況判断が可能になり、例えば画像を解析してキャプションを生成したり 音声をテキストに変換したりすることが容易になります。
テキスト生成AIの最近の動きの中で、GPT-4の特徴としてテキストと画像を織り交ぜて入力できるマルチモーダルモデルであることを書きましたが、まさにこれに該当します。暫くは他の生成AI(音声や画像など)との組み合わせに焦点が置かれると思いますが、将来的にはそれらを統合するようなモデルが出てくるかと思います。
自律的学習AI: 人間の指示に頼らず、自動的に新しい情報や技術を学習・適応するAIが登場します。 これにより、モデルは自ら進化し、常に最新の知識やトレンドを理解して対応できるようになります。
これは生成AIから更に一歩先をいったものになると思います。現状では対話という形で人間が介在しながら、あるいは人間が意図的に複数のAIを組み合わせながらより良い出力を目指していますが、ここに人間の存在が不要になった瞬間、回答の精度は一気に急上昇するでしょう。

おわりに

テキスト生成AIは、もはや自然言語の要約や翻訳などのタスクに限らず、プログラミングコードの生成や修正も可能になってきました。更に、生成AIの中には画像や音声をはじめとしてどの分野も急速な発展をしてきています。 次回はこの激動のAI時代の流れの中で、エンジニアの立場はどのように変化していくのか、どのようにAIと関わり合うべきかということを書いていきたいと思います。