SKYPCEでのVLM活用

この記事では、SKYPCEにおける名刺情報データ入力業務でのVLM（Vision Language Model）の活用方法について説明しています。特に、LoRA（Low-Rank Adaptation）を用いた効率的なモデルチューニング方法とそのメリットについて詳述しています。

本日はSKYPCEにおける名刺情報データ入力業務でのVLM活用方法について紹介します。

VLMとは

VLM（Vision Language Model） とは、画像や動画などの視覚情報と日本語の文章などのテキスト情報を統合的に処理できるAIです。
近年ではGEMMA 3や Qwen2.5-VLなど高精度なVLMがどんどん登場しており、活用されている方も多いのではないでしょうか。

我々は、OSSのVLMに対してLoRA（Low-Rank Adaptation） で学習することで、各タスクごとに最適なモデルを作成しています。

まず、LoRAについて説明します。
LoRAとは、モデルに対するチューニング方法の1つで、事前学習済みモデルのパラメータは固定し、新たに少数のパラメータを追加して、下流タスクの学習によって追加したパラメータを調整することで効率よく精度の高いモデルを作成できます（下図参照）。

VLMに対してLoRAで学習を行うことによって以下のメリットがあります。

※弊社ではVLMのLoRAをオンプレミス環境で行っております。

一般知識に対して高い回答精度を誇るVLMの事前学習済みモデルに対して社内データを用いてLoRAで学習することで、より最適なモデルを効率よく作成することができます。
また、LoRAで学習する際に使用する学習データも比較的簡単に作れるため、多くのタスクに適用させることができます。

Tech Blogを最後までお読みいただき、ありがとうございました。我々のチームでは、AI技術を駆使してお客様のニーズに応えるため、常に新しい挑戦を続けています。最近では、受託開発プロジェクトにおいて、LLMやVLMを活用したソリューションの開発ニーズが高まっております。

AI開発経験のある方やLLM/VLM開発に興味のある方は、ぜひご応募ください。あなたのスキルと情熱をお待ちしています。

新卒、キャリア募集しています！

＼シェアをお願いします！／

入社後にスキルアップを目指す若手の方も、ご自身の経験を幅広いフィールドで生かしたいベテランの方も、お一人おひとりの経験に応じたキャリア採用を行っています。

Ｓｋｙ株式会社のソフトウェア開発や製品、採用に関するお問い合わせについては、下記のリンクをご確認ください。