edit_square

ブログ

Posts

考察 テクノロジー・AI

AIは「考えて」いるのか?- LLM(大規模言語モデル)の頭の中を覗く、回答生成のメカニズム

LLM(大規模言語モデル)が回答を生成する5つのステップ

AIのLLM(大規模言語モデル)の内部では、人間が文章を理解し、応答を考えるプロセスを数学的に模倣した、以下のようなステップが展開されています。

ステップ1:入力の「トークン化」(Tokenization)

まず、人間が使う自然言語(プロンプト)を、モデルが処理できる最小単位の「トークン」に分割します。これは、文章を単語や文字のパーツに分解する作業です。

  • 日本語の例: 「今日の東京の天気は?」
  • トークン化の結果: ["今日", "の", "東京", "の", "天気", "は", "?"]
    • (※実際にはもっと細かく、例えば「天気」が「天」「気」に分かれるなど、モデルが学習した語彙によって分割の仕方は異なります。)

このトークン化により、どんな文章でもモデルが扱える共通の部品に変換されます。

ステップ2:数値への変換「埋め込み」(Embedding)

コンピューターは「今日」や「天気」といった文字そのものを直接計算できません。そのため、分割された各トークンを**数値のベクトル(数値のリスト)**に変換します。これを「埋め込み(Embedding)」と呼びます。

このベクトルは、単なるID番号ではなく、トークンが持つ意味的な位置関係を表現する多次元空間上の「住所」のようなものです。例えば、「猫」と「犬」のベクトルは近くに、「猫」と「車」のベクトルは遠くに配置されるように学習されています。これにより、モデルは単語同士の意味の近さを計算できるようになります。

ステップ3:文脈の理解「Transformerアーキテクチャ」

ここがLLMの心臓部です。数値化されたトークンのベクトル列は、Transformer(トランスフォーマー) と呼ばれるニューラルネットワークのアーキテクチャに入力されます。

Transformerの最大の特徴は「自己注意機構(Self-Attention Mechanism)」です。これは、文章中のある単語が、他のどの単語と強く関連しているかに「注意(Attention)」を向け、その関連性の重みを計算する仕組みです。

例えば、「Apple announced a new smartphone while I was eating an apple.(私がリンゴを食べている間に、アップル社が新しいスマートフォンを発表した)」という文では、最初の "Apple"(会社名)と後ろの "apple"(果物)の意味が異なります。

この処理を何層にもわたって(数十〜百層以上)繰り返すことで、モデルはプロンプトの表層的な意味だけでなく、複雑な文脈やニュアンスを深く捉えることが可能になります。

ステップ4:次に来る単語の「予測」(Prediction)

Transformerがプロンプトの文脈を完全に把握すると、次に来るべきトークンが何かを予測します。

具体的には、モデルが知っている数万〜数十万の全語彙(トークン)に対して、「次に来る確率」を計算し、確率分布として出力します。

例: プロンプト「今日の東京の天気は?」に対して…

  • 「晴れ」: 45%
  • 「曇り」: 30%
  • 「雨」: 15%

    ここから、確率が最も高いトークン(この場合は「晴れ」)を選択するのが基本的な動きです。(※実際には、創造性を出すために少しランダム性を加える「サンプリング」という技術も使われます。)

ステップ5:連続的な生成「自己回帰」(Autoregression)

1周目: プロンプト「今日の東京の天気は?」

次のトークン**「晴れ」**を予測・生成

2周目: 新しい入力文「今日の東京の天気は?晴れ

次のトークン**「です」**を予測・生成

3周目: 新しい入力文「今日の東京の天気は?晴れです

…(以下、終わりが来るまでループ)

このように、直前に生成したトークンを次の入力に含めて、次のトークンを予測するというプロセスを、文章の終わりを示す特別なトークン(<end_of_text>など)が生成されるか、指定された文字数に達するまで繰り返します。この仕組みを「自己回帰(Autoregressive)」と呼びます。


まとめ

以上をまとめると、LLMの回答生成は以下のような流れです。

プロンプト

└ ① トークン化(文字の分解)

└ ② 埋め込み(数値のベクトル化)

└ ③ Transformer(文脈の理解)

└ ④ 予測(次に来るトークンの確率計算)

└ ⑤ 自己回帰(予測したトークンを入力に戻して④へループ

最終的な回答の出力

LLMは、人間のように思考や意識を持っているわけではありません。しかし、この精巧な統計的予測の連鎖によって、まるで人間が考えて話しているかのような、自然で文脈に沿った文章を生成することができるのです。

@makaniaizu 2024