記事検索

検索ワードを入力してください。
Sky Tech Blog
SKYPCEでの​VLM活用

SKYPCEでの​VLM活用

この記事では、SKYPCEにおける名刺情報データ入力業務でのVLM(Vision Language Model)の活用方法について説明しています。特に、LoRA(Low-Rank Adaptation)を用いた効率的なモデルチューニング方法とそのメリットについて詳述しています。

本日はSKYPCEにおける名刺情報データ入力業務でのVLM活用方法について紹介します。

VLMとは

VLM(Vision Language Model) とは、画像や動画などの視覚情報と日本語の文章などのテキスト情報を統合的に処理できるAIです。
近年ではGEMMA 3Qwen2.5-VLなど高精度なVLMがどんどん登場しており、活用されている方も多いのではないでしょうか。

活用方​法

我々は、OSSのVLMに対してLoRA(Low-Rank Adaptation) で学習することで、各タスクごとに最適なモデルを作成しています。

まず、LoRAについて説明します。
LoRAとは、モデルに対するチューニング方法の1つで、事前学習済みモデルのパラメータは固定し、新たに少数のパラメータを追加して、 下流タスクの学習によって追加したパラメータを調整することで効率よく精度の高いモデルを作成できます(下図参照)。

VLMに対してLoRAで学習を行うことによって以下のメリットがあります。

  • 従来のファインチューニングと比べて学習コストが低い。
  • チューニング後に保存するモデルの容量が小さい。
  • 事前学習済みモデルで獲得している知識をベースに、SKYPCE独自の名刺情報データ入力ルールを学習させることができる。
  • VLMによる出力を安定させることができる。

※弊社ではVLMのLoRAをオンプレミス環境で行っております。

まとめ

一般知識に対して高い回答精度を誇るVLMの事前学習済みモデルに対して社内データを用いてLoRAで学習することで、 より最適なモデルを効率よく作成することができます。
また、LoRAで学習する際に使用する学習データも比較的簡単に作れるため、多くのタスクに適用させることができます。

最後に

Tech Blogを最後までお読みいただき、ありがとうございました。 我々のチームでは、AI技術を駆使してお客様のニーズに応えるため、常に新しい挑戦を続けています。 最近では、受託開発プロジェクトにおいて、LLMやVLMを活用したソリューションの開発ニーズが高まっております。

AI開発経験のある方やLLM/VLM開発に興味のある方は、ぜひご応募ください。 あなたのスキルと情熱をお待ちしています。

新卒、キャリア募集しています!


\シェアをお願いします!/
  • X
  • Facebook
  • LINE
キャリア採用募集中!

入社後にスキルアップを目指す若手の方も、ご自身の経験を幅広いフィールドで生かしたいベテランの方も、お一人おひとりの経験に応じたキャリア採用を行っています。

Sky株式会社のソフトウェア開発や製品、採用に関するお問い合わせについては、下記のリンクをご確認ください。
お問い合わせ
ホーム