AIは「考えて」いるのか?- LLM(大規模言語モデル)の頭の中を覗く、回答生成のメカニズム
LLM(大規模言語モデル)が回答を生成する5つのステップ
AIのLLM(大規模言語モデル)の内部では、人間が文章を理解し、応答を考えるプロセスを数学的に模倣した、以下のようなステップが展開されています。
ステップ1:入力の「トークン化」(Tokenization)
まず、人間が使う自然言語(プロンプト)を、モデルが処理できる最小単位の「トークン」に分割します。これは、文章を単語や文字のパーツに分解する作業です。
- 日本語の例: 「今日の東京の天気は?」
- トークン化の結果:
["今日", "の", "東京", "の", "天気", "は", "?"]- (※実際にはもっと細かく、例えば「天気」が「天」「気」に分かれるなど、モデルが学習した語彙によって分割の仕方は異なります。)
このトークン化により、どんな文章でもモデルが扱える共通の部品に変換されます。
ステップ2:数値への変換「埋め込み」(Embedding)
コンピューターは「今日」や「天気」といった文字そのものを直接計算できません。そのため、分割された各トークンを**数値のベクトル(数値のリスト)**に変換します。これを「埋め込み(Embedding)」と呼びます。
このベクトルは、単なるID番号ではなく、トークンが持つ意味的な位置関係を表現する多次元空間上の「住所」のようなものです。例えば、「猫」と「犬」のベクトルは近くに、「猫」と「車」のベクトルは遠くに配置されるように学習されています。これにより、モデルは単語同士の意味の近さを計算できるようになります。
ステップ3:文脈の理解「Transformerアーキテクチャ」
ここがLLMの心臓部です。数値化されたトークンのベクトル列は、Transformer(トランスフォーマー) と呼ばれるニューラルネットワークのアーキテクチャに入力されます。
Transformerの最大の特徴は「自己注意機構(Self-Attention Mechanism)」です。これは、文章中のある単語が、他のどの単語と強く関連しているかに「注意(Attention)」を向け、その関連性の重みを計算する仕組みです。
例えば、「Apple ate an apple a day.」という文では、最初の "Apple" (会社名)と次の "apple" (果物)の意味が異なります。自己注意機構は、文全体の文脈から、それぞれの "apple" がどの単語と関連が深いかを判断し、意味を正しく捉えることができます。
この処理を何層にもわたって(数十〜百層以上)繰り返すことで、モデルはプロンプトの表層的な意味だけでなく、複雑な文脈やニュアンスを深く捉えることが可能になります。
ステップ4:次に来る単語の「予測」(Prediction)
Transformerがプロンプトの文脈を完全に把握すると、次に来るべきトークンが何かを予測します。
具体的には、モデルが知っている数万〜数十万の全語彙(トークン)に対して、「次に来る確率」を計算し、確率分布として出力します。
- 例: プロンプト「今日の東京の天気は」に対して…
- 「晴れ」: 45%
- 「雨」: 30%
- 「? 」: 15%
- 「曇り」: 9%
- ...その他: 1%
ここから、確率が最も高いトークン(この場合は「晴れ」)を選択するのが基本的な動きです。(※実際には、創造性を出すために少しランダム性を加える「サンプリング」という技術も使われます。)
ステップ5:連続的な生成「自己回帰」(Autoregression)
1つのトークンが生成されると、そのプロセスは終わりではありません。
- プロンプト「今日の東京の天気は」
- 次のトークン「晴れ」を予測・生成
- 新しい入力文を「今日の東京の天気は晴れ」として、再度ステップ3〜4を実行
- 次のトークン「です」を予測・生成
- 新しい入力文を「今日の東京の天気は晴れです」として…
このように、直前に生成したトークンを次の入力に含めて、次のトークンを予測するというプロセスを、文章の終わりを示す特別なトークン(<end_of_text>など)が生成されるか、指定された文字数に達するまで繰り返します。この仕組みを「自己回帰(Autoregressive)」と呼びます。
まとめ
以上をまとめると、LLMの回答生成は以下のような流れです。
プロンプト → ①トークン化 → ②数値化(埋め込み) → ③文脈理解(Transformer) → ④次のトークンを予測 → ⑤予測したトークンを入力に加えて繰り返し → 最終的な回答
LLMは、人間のように思考や意識を持っているわけではありません。しかし、この精巧な統計的予測の連鎖によって、まるで人間が考えて話しているかのような、自然で文脈に沿った文章を生成することができるのです。