記事検索

検索ワードを入力してください。
Sky Tech Blog
生成AIの​仕組みから​考える​「得意」と​「苦手」

生成AIの​仕組みから​考える​「得意」と​「苦手」

生成AIに文字数を指定しても守られないのは、AIが文章を「トークン」という独自の単位で分割・処理するためです。本記事では、このトークンの仕組みを解説し、なぜAIが要約や翻訳のような「意図を汲み取る」作業は得意な一方、文字数カウントのような「厳密さ」が求められる作業は苦手なのかを明らかにします。この仕組みを理解することで、AIへの指示の出し方や結果の解釈がよりスムーズになります。

はじめに

生成AIに「○○文字程度で出力して」という依頼をしても全然守ってくれない。といった経験はないでしょうか?
これは性能の良し悪しというより、生成AIが文章を理解する方法が人間と違うことが主な要因のひとつです。
ここで重要になるのが文章を分解して扱う「トークン」という仕組みです。
この記事ではトークンベースの特徴から、生成AIが得意なこと・苦手なことを整理します。

トークンとは​何か

生成AIにおけるトークンとは、AIがテキストを処理・理解するための分割単位です。
日本語では特に区切り方が人間の感覚とズレることがあります。
そのため、文字数や単語数とトークン数は必ずしも一致するとは限りません。

例えば下の図のように「私はSky株式会社の社員です。」という文章をAIが理解する際、「私は」「Sky」「株式会社」「」「社員」「です」「」のように分割して解釈します。

AIモデルごとに詳細な分割の仕組みや分割単位は異なり、画像は一例です。
※実際のトークンは単語単位とは限らず、単語の一部や1文字になることもあります。

テキスト生成の​仕組み

生成AIがテキストを生成するとき、今までの入力文から「次に来そうなトークン」を選ぶことを繰り返します。
文章の前後関係などから、次に来そうなトークンを予想して文章を出力しています。

例えば下の図のように「生成AIは」といった文章が途中まで出力されているとして、AIは次に来そうなトークンの候補である「便利」「高度」「独創的」から確率が高い候補を中心に選びます。

仕組みから​分かる​「得意」

トークンの並びから文脈をとらえるため、以下のような「文章の意図を汲み取る」作業が得意です。

  • 言語処理タスク(要約、言い換え、構成、トーン調整、翻訳など)
  • 分析/分類タスク(分類、トピック抽出など)
  • 生成タスク(文章生成など)

仕組みから​分かる​「苦手」

一方で、生成AIは「厳密に数える」「完全一致させる」といった作業が苦手になりがちです。
文章を解釈する単位が文字ではなくトークンであり、動きとしても「手順を厳密に実行する」より「それらしい答えを生成する」に近いためです。

  • 正確性の必要なタスク(完全一致検索、文字数カウントなど)
  • 検証/確認タスク(事実確認、データ検証など)
  • 決定性が求められるタスク(データ変換など)

近年のモデルにおいては、上記の苦手も改善傾向にはありますが、依然として性質的に得意なタスクではなく、誤ることがあります。

おわりに

生成AIは、文章をトークンという単位で扱い、文脈に合う続きを選ぶことを繰り返して文章を作ります。
だからこそ、要約や言い換えのように「文章の意味」を整える作業は得意な一方、文字数カウントのように「厳密さ」が必要な作業はズレが出やすくなります。
仕組みを知っておくと、生成AIの答えの見方や頼み方が少し楽になるはずです。


\シェアをお願いします!/
  • X
  • Facebook
  • LINE
キャリア採用募集中!

入社後にスキルアップを目指す若手の方も、ご自身の経験を幅広いフィールドで生かしたいベテランの方も、お一人おひとりの経験に応じたキャリア採用を行っています。

Sky株式会社のソフトウェア開発や製品、採用に関するお問い合わせについては、下記のリンクをご確認ください。
お問い合わせ
ホーム