ChatGPTに質問を投げると、まるで人間みたいにスラスラ答えが返ってくる。便利なんですけど、ふと「これ、中で何が起きてるんだ?」って気になりませんか。私も最初は「AIが文章を理解して考えてる」とぼんやり思っていました。でも、それは半分以上ハズレでした。
LLM(大規模言語モデル)の正体は、ものすごく雑に言うと「次の単語を確率で当て続けるだけの予測機」です。意味を噛みしめているわけでも、感情があるわけでもありません。ここを勘違いしたまま使うと、平気で嘘をつかれたときに「なんで?」とパニックになります。
私はエンジニアとして毎日のようにLLMを触っていますが、仕組みをざっくり知ってから使い方がガラッと変わりました。この記事では、専門用語をできるだけ噛み砕いて、LLMの中身を説明します。読み終わるころには「なるほど、だからこう動くのか」と腹落ちしているはずです。
結論:LLMの仕組みは「次の単語を確率で予測する」だけ
先に答えを言ってしまうと、LLMがやっているのは「ここまでの文章に続く、もっともそれっぽい単語は何か」を確率で計算して、1つずつ出力する作業です。これをひたすら繰り返して、長い文章を組み立てています。
たとえば「今日の天気は」という入力に対して、LLMは内部で「晴れ:40%、雨:25%、曇り:20%……」のような確率を弾き出します。そして高い確率の単語を選んで「晴れ」と出す。次は「今日の天気は晴れ」を入力として、また次の単語を予測する。この単純なループの積み重ねが、あの流暢な文章の正体です。
拍子抜けしますよね。私も知ったときは「えっ、それだけ?」と思いました。ただ、この「それだけ」を桁外れの規模でやると、人間が舌を巻くレベルの文章が出てくる。そこがLLMの面白いところです。
LLM(大規模言語モデル)とは何かを一言で
LLMとは、膨大なテキストを学習して「次にくる言葉」を予測できるようにした、超巨大な言語モデルです。Large Language Modelの頭文字をとってLLMと呼びます。ChatGPTのGPTや、Googleのジェミニ、AnthropicのClaudeなどが代表例です。
「大規模」の中身は、モデルの中にあるパラメータ(後で調整される数値のつまみ)の数です。最近のモデルは数千億〜1兆個ものパラメータを持ちます。人間の脳のシナプスを思い浮かべると、規模感がなんとなく伝わるかもしれません。
「理解している」わけではないという大前提
ここが一番大事なので強調しておきます。LLMは言葉の意味を人間のように理解しているわけではありません。あくまで「過去のテキストでよく一緒に出てきた単語のパターン」を統計的になぞっているだけです。
だから自信満々に間違えます。後で触れるハルシネーション(それっぽい嘘)も、この性質から生まれます。「賢い検索エンジン」ではなく「めちゃくちゃ流暢な予測マシン」だと捉えておくと、付き合い方を間違えません。
LLMが文章を作る5つのステップで理解する
では、入力した文章が答えになるまで、内部でどんな流れをたどるのか。ここを5つのステップに分けて見ていきます。全体像を先に置いておくので、迷子になったら戻ってきてください。
- ①トークン化:文章を細かいかけらに分解する
- ②ベクトル化:かけらを数字の並びに変換する
- ③Attention:文脈の中で重要な部分に注目する
- ④次トークン予測:次にくる単語の確率を計算する
- ⑤出力:選んだ単語を返し、また①に戻る
①トークン化:文章を細かく分解する
最初の工程はトークン化です。LLMは文章をそのまま扱えないので、「トークン」と呼ばれる小さな単位にバラします。トークンは単語そのままのこともあれば、単語の一部だったりもします。
たとえば「東京タワー」が「東京」「タワー」の2トークンに分かれる、といった具合です。英語だと"playing"が"play"と"ing"に割れることもあります。このトークンの数が、料金計算や処理量の基準になります。
②ベクトル化:単語を数字の地図に置き換える
次に、バラしたトークンを数字の並び(ベクトル)に変換します。コンピュータは言葉のままでは計算できないので、意味の近い単語が近い座標になるよう、数百次元の地図上に配置するイメージです。
この地図の上では「王様」から「男」を引いて「女」を足すと「女王」の近くにたどり着く、なんて関係も表現できます。言葉の意味を座標で扱えるようにする、地味だけど決定的に重要な工程です。
③Attention:文脈の「どこが大事か」を見る
ここがLLMの賢さの源泉です。Attention(注意機構)は、文章の中でどの単語がどの単語と強く関係しているかを計算します。これによって文脈を踏まえた判断ができます。
「彼は銀行に行った」の「銀行」と、「川の銀行で釣りをした」の「銀行」。同じ単語でもAttentionが周りの言葉を見て、意味を使い分けます。文脈を読む力は、ここで生まれています。
④次トークン予測:確率で次の単語を選ぶ
最後にモデルは、ここまでの情報をもとに「次にくるトークンの確率」を全候補について計算します。そして確率の高いものから1つを選んで出力する。冒頭で説明した「予測機」の本体がここです。
毎回かならず最高確率を選ぶとは限りません。あえて少しランダム性を混ぜることで、同じ質問でも違う言い回しが返ってきます。この「ゆらぎ」の強さを決めるのが、よく聞く温度(temperature)という設定です。
LLMの心臓部「Transformer」をかみ砕く
ここまで出てきたAttentionを軸に組み上げられた仕組みが、Transformer(トランスフォーマー)です。いまのLLMはほぼ全部、このTransformerをベースにしています。2017年にGoogleの研究者が発表した論文「Attention Is All You Need」が出発点でした。
名前はいかついですが、やっていることは「Attentionを何層も重ねて、文脈の理解をどんどん深める」だけです。この発明があったからこそ、LLMはここまで自然な文章を書けるようになりました。逆に言うと、Transformerを知らずにLLMは語れません。
Transformerが革命的だった理由
Transformer以前の技術は、文章を前から順番に1単語ずつ処理していました。そのため長い文章だと前半の内容を忘れがちで、処理にも時間がかかりました。
Transformerは文章全体を一気に並列で見られます。だから長文でも文脈を保てるし、計算もまとめて回せて速い。この「並列処理」と「長文への強さ」が、規模を一気に拡大できた最大の理由です。
自己注意機構(Self-Attention)の役割
Transformerの中核がSelf-Attention(自己注意機構)です。これは、入力した文章の中の単語どうしが、お互いにどれだけ関係するかを計算する仕組みです。
「それ」「これ」が何を指すか、主語と述語がどう対応するか。Self-Attentionが文中の全単語を見比べて、関係の強さを重みづけします。人間が文章を読むとき無意識にやっている「前後を見返す」作業を、数式で再現したものだと考えると親しみがわきます。
LLMはどう賢くなる?2段階の学習の仕組み
仕組みの形ができても、最初のLLMは何も知りません。賢くするには学習が必要で、これは大きく2段階に分かれます。事前学習で土台を作り、ファインチューニングで使いやすく仕上げる、という流れです。
| 段階 | やること | 目的 |
|---|---|---|
| 事前学習 | 大量テキストで次の単語を予測 | 言葉の基礎力をつける |
| ファインチューニング | 人間好みの受け答えに調整 | 役立つ・安全な応答にする |
事前学習:ネットの大量テキストで丸暗記
事前学習では、インターネット上の本・記事・コードなど、桁外れの量のテキストを読み込ませます。やらせることは1つ、「文章の途中までを見せて、次の単語を当てさせる」です。
外れたら内部のパラメータを少し直す。これを何兆回も繰り返すうちに、文法も知識も言い回しも、自然と身についていきます。膨大な穴埋めドリルを延々と解かせるイメージですね。ここで言葉の基礎体力が決まります。
ファインチューニングとRLHF:人間好みに矯正する
事前学習しただけのモデルは、知識はあっても受け答えが不親切だったり、危ない発言をしたりします。そこで人間の手で行儀を整えるのがファインチューニングです。
とくにRLHF(人間のフィードバックによる強化学習)では、複数の回答を人が「こっちが良い」と評価し、その好みをモデルに覚えさせます。ChatGPTが急に使いやすくなった裏には、この地道な矯正作業がありました。賢さの最後の一押しは、案外人力なんです。
知っておくべきLLMの弱点と注意点
仕組みがわかると、弱点も自然に見えてきます。LLMは万能ではありません。むしろ「予測機」という正体を踏まえると、苦手なことがはっきりします。代表的な2つを押さえておきましょう。
ハルシネーション(それっぽい嘘)が起きる理由
ハルシネーションとは、LLMが事実でない内容を自信たっぷりに答える現象です。存在しない論文や、間違った人物の経歴を堂々と作り出します。
原因はシンプルで、LLMは「正しいかどうか」ではなく「それっぽく続くかどうか」で単語を選んでいるから。事実を確認する機能はそもそも入っていません。だから重要な情報は、必ず自分で裏取りする。これは仕組み上、避けて通れない注意点です。
最新情報に弱い・計算コストが高い
LLMは学習した時点までの知識しか持ちません。学習のあとに起きた出来事は、追加の仕組みがない限り知らないままです。だから「昨日のニュース」を聞いても答えられないことがあります。
もう1つはコストです。巨大なモデルを動かすには大量のGPUと電力が要ります。最新情報を補うRAGや、軽量化する蒸留・量子化といった技術が盛んなのも、この弱点を埋めるためなんです。
よくある質問(FAQ)
LLMと生成AIは何が違うの?
生成AIは画像や音声も含む「何かを生み出すAI」全般を指す広い言葉です。LLMはそのうち、テキストを扱うものを指します。LLMは生成AIの一種、という関係です。
LLMは計算や数学が苦手って本当?
本当です。LLMは計算しているのではなく「それっぽい数字を予測」しているだけなので、桁の多い計算をよく間違えます。正確さが必要なら、電卓やコード実行と組み合わせるのが安全です。
ローカルLLMと普通のLLMの違いは?
仕組みは同じですが、動かす場所が違います。ローカルLLMは自分のパソコンやサーバーで動かすので、データを外に出さずに使えます。プライバシーを重視する場面で選ばれます。
仕組みを知らなくても使えるのでは?
使えます。ただ仕組みを知ると、嘘を見抜きやすくなり、指示の出し方もうまくなります。「予測機」だと理解しているだけで、トラブルへの心構えが変わります。
まとめ:仕組みを知ると使い方が変わる
LLMの仕組みを、もう一度かいつまんで振り返ります。難しい数式は抜きにして、流れだけ頭に残しておけば十分です。
- LLMの正体は「次の単語を確率で予測する機械」
- 文章作成はトークン化→ベクトル化→Attention→予測→出力の繰り返し
- 心臓部はAttentionを重ねたTransformer
- 事前学習で土台を作り、ファインチューニングとRLHFで仕上げる
- 意味を理解しないので、ハルシネーションと最新情報の弱さは宿命
私はこの「中身はただの予測機」という感覚を持ってから、LLMに過度な期待も失望もしなくなりました。賢いふりがうまい道具、くらいの距離感がちょうどいい。仕組みを知ることは、振り回されずに使いこなすための、いちばん地味で効く武器です。次にAIへ質問するとき、頭の中で確率を弾く小さな予測機を思い浮かべてみてください。きっと、答えの受け取り方が変わります。