よんなーハウス

AIは「考えて」いるのか?- LLM(大規模言語モデル)の頭の中を覗く、回答生成のメカニズム

LLM(大規模言語モデル)が回答を生成する5つのステップ

AIのLLM(大規模言語モデル)の内部では、人間が文章を理解し、応答を考えるプロセスを数学的に模倣した、以下のようなステップが展開されています。

ステップ1:入力の「トークン化」(Tokenization)

まず、人間が使う自然言語(プロンプト)を、モデルが処理できる最小単位の「トークン」に分割します。これは、文章を単語や文字のパーツに分解する作業です。

  • 日本語の例: 「今日の東京の天気は?」
  • トークン化の結果: ["今日", "の", "東京", "の", "天気", "は", "?"]
    • (※実際にはもっと細かく、例えば「天気」が「天」「気」に分かれるなど、モデルが学習した語彙によって分割の仕方は異なります。)

このトークン化により、どんな文章でもモデルが扱える共通の部品に変換されます。

ステップ2:数値への変換「埋め込み」(Embedding)

コンピューターは「今日」や「天気」といった文字そのものを直接計算できません。そのため、分割された各トークンを**数値のベクトル(数値のリスト)**に変換します。これを「埋め込み(Embedding)」と呼びます。

このベクトルは、単なるID番号ではなく、トークンが持つ意味的な位置関係を表現する多次元空間上の「住所」のようなものです。例えば、「猫」と「犬」のベクトルは近くに、「猫」と「車」のベクトルは遠くに配置されるように学習されています。これにより、モデルは単語同士の意味の近さを計算できるようになります。

ステップ3:文脈の理解「Transformerアーキテクチャ」

ここがLLMの心臓部です。数値化されたトークンのベクトル列は、Transformer(トランスフォーマー) と呼ばれるニューラルネットワークのアーキテクチャに入力されます。

Transformerの最大の特徴は「自己注意機構(Self-Attention Mechanism)」です。これは、文章中のある単語が、他のどの単語と強く関連しているかに「注意(Attention)」を向け、その関連性の重みを計算する仕組みです。

例えば、「Apple ate an apple a day.」という文では、最初の "Apple" (会社名)と次の "apple" (果物)の意味が異なります。自己注意機構は、文全体の文脈から、それぞれの "apple" がどの単語と関連が深いかを判断し、意味を正しく捉えることができます。

この処理を何層にもわたって(数十〜百層以上)繰り返すことで、モデルはプロンプトの表層的な意味だけでなく、複雑な文脈やニュアンスを深く捉えることが可能になります。

ステップ4:次に来る単語の「予測」(Prediction)

Transformerがプロンプトの文脈を完全に把握すると、次に来るべきトークンが何かを予測します。

具体的には、モデルが知っている数万〜数十万の全語彙(トークン)に対して、「次に来る確率」を計算し、確率分布として出力します。

  • : プロンプト「今日の東京の天気は」に対して…
    • 「晴れ」: 45%
    • 「雨」: 30%
    • 「? 」: 15%
    • 「曇り」: 9%
    • ...その他: 1%

ここから、確率が最も高いトークン(この場合は「晴れ」)を選択するのが基本的な動きです。(※実際には、創造性を出すために少しランダム性を加える「サンプリング」という技術も使われます。)

ステップ5:連続的な生成「自己回帰」(Autoregression)

1つのトークンが生成されると、そのプロセスは終わりではありません。

  1. プロンプト「今日の東京の天気は」
  2. 次のトークン「晴れ」を予測・生成
  3. 新しい入力文を「今日の東京の天気は晴れ」として、再度ステップ3〜4を実行
  4. 次のトークン「です」を予測・生成
  5. 新しい入力文を「今日の東京の天気は晴れです」として…

このように、直前に生成したトークンを次の入力に含めて、次のトークンを予測するというプロセスを、文章の終わりを示す特別なトークン(<end_of_text>など)が生成されるか、指定された文字数に達するまで繰り返します。この仕組みを「自己回帰(Autoregressive)」と呼びます。


まとめ

以上をまとめると、LLMの回答生成は以下のような流れです。

プロンプト①トークン化②数値化(埋め込み)③文脈理解(Transformer)④次のトークンを予測⑤予測したトークンを入力に加えて繰り返し最終的な回答

LLMは、人間のように思考や意識を持っているわけではありません。しかし、この精巧な統計的予測の連鎖によって、まるで人間が考えて話しているかのような、自然で文脈に沿った文章を生成することができるのです。

©makaniaizu 2024