本日はSKYPCEにおける名刺情報データ入力業務でのVLM活用方法について紹介します。
VLMとは
VLM(Vision Language Model) とは、画像や動画などの視覚情報と日本語の文章などのテキスト情報を統合的に処理できるAIです。
近年ではGEMMA 3や
Qwen2.5-VLなど高精度なVLMがどんどん登場しており、活用されている方も多いのではないでしょうか。

活用方法
我々は、OSSのVLMに対してLoRA(Low-Rank Adaptation) で学習することで、各タスクごとに最適なモデルを作成しています。
まず、LoRAについて説明します。
LoRAとは、モデルに対するチューニング方法の1つで、事前学習済みモデルのパラメータは固定し、新たに少数のパラメータを追加して、
下流タスクの学習によって追加したパラメータを調整することで効率よく精度の高いモデルを作成できます(下図参照)。

VLMに対してLoRAで学習を行うことによって以下のメリットがあります。
- 従来のファインチューニングと比べて学習コストが低い。
- チューニング後に保存するモデルの容量が小さい。
- 事前学習済みモデルで獲得している知識をベースに、SKYPCE独自の名刺情報データ入力ルールを学習させることができる。
- VLMによる出力を安定させることができる。
※弊社ではVLMのLoRAをオンプレミス環境で行っております。
まとめ
一般知識に対して高い回答精度を誇るVLMの事前学習済みモデルに対して社内データを用いてLoRAで学習することで、
より最適なモデルを効率よく作成することができます。
また、LoRAで学習する際に使用する学習データも比較的簡単に作れるため、多くのタスクに適用させることができます。
最後に
Tech Blogを最後までお読みいただき、ありがとうございました。 我々のチームでは、AI技術を駆使してお客様のニーズに応えるため、常に新しい挑戦を続けています。 最近では、受託開発プロジェクトにおいて、LLMやVLMを活用したソリューションの開発ニーズが高まっております。
AI開発経験のある方やLLM/VLM開発に興味のある方は、ぜひご応募ください。 あなたのスキルと情熱をお待ちしています。
新卒、キャリア募集しています!

