今回は、LLMのビジネス利用に関して注意すべき点、その中でも使用許諾条件についてまとめました。
メルマガ登録
こんにちは。アナリティクスサービス部の安藤です。
このたび弊社ではLLM/Generative AIに関する研究プロジェクトを立ち上げたところです。その一環として、LLMをビジネスで利用する際の注意点について連載形式でご紹介していきます。
昨年以来、ChatGPTをはじめとする大規模言語モデル(LLM)*1の技術が急速に発展しています。特にOpenAI社が今年3月に公開したGPT-4は、米国の司法試験で上位10%に入る成績を記録するなど、その驚異的な性能で世界に大きな衝撃を与えました*2。ChatGPTはAPIでも公開されており、LLMを搭載したアプリやサービスも続々と登場しています。
他方で、LLMをビジネスに活用するに当たっては、個人で活用する場合とは異なり、契約上のルールや法的なリスクなど、注意しなければならないことも多くあります。
本連載では、LLMサービスをビジネスで利用するに当たって注意するべき点について、ご紹介していきます。
まず、本連載で扱うLLMサービスのイメージと想定する対象者の範囲(定義)について説明します。
まず、自らLLMのモデルを開発し(他者が公開したモデルのソースコードを利用して新たなモデルを開発する場合も含む)、直接・間接的にサービスを提供している者を本ブログでは「プラットフォーマー」と呼びます。例えばOpenAI社がこれに当たります。
次に、API等を通じてプラットフォーマーのモデルの機能を利用し、自社のサービスに組み込んで提供する者を「サービス提供者」と呼びます。
そして、プラットフォーマーやサービス提供者のサービスを利用する者を「ユーザー」と呼びます。
ユーザーが利用するサービスの主な態様としては、プラットフォーマーがWebインターフェース等を通じて提供するサービスを直接利用する場合(図の①)と、プラットフォーマーがAPI等を通じて提供するモデルの機能を利用してサービス提供者が開発・提供するサービスを利用する場合(図の②)が考えられます。前者の代表例がWeb版のChatGPTになります。
以降の連載の内容によって想定する主な対象者の方も異なります。
今回はLLMをビジネスに使用する際の条件についてご紹介します。以下では、①プラットフォーマーが提供するサービスを利用するサービス提供者やユーザーが主に注意すべき事項、②自らモデルを開発したり、他者が公開したモデルを改良して使用するプラットフォーマーの方が主に注意すべき事項に分けてご紹介します。
プラットフォーマー(OpenAI社など)が提供するサービスを利用するサービス提供者やユーザーは、プラットフォーマーが定める使用条件を遵守する必要があります。サービスをビジネスに活用しようとする場合には、サービスの出力(アウトプット)に関する権利(商用利用の可否含む)や使用に当たっての制限事項を確認することが必要です。
なお、個人情報の保護や他者の著作権侵害など、サービスのアウトプットの使用条件以外で注意しなければならない点については、次回以降の記事でご紹介します。
まずは、サービスのアウトプットを商用利用できるか否かを確認することが必要です。商用利用の可否を含め、サービスの利用条件は利用規約(英語ではTerms of UseやTerms of Serviceと呼ばれます)に定められていることが多いので、サービスの利用に当たってはまず利用規約を確認しましょう。ここでは例としてOpenAI社の利用規約*3を取り上げます。利用規約3(a)の規定(下記)によれば、OpenAI社のサービスから得られたコンテンツ*4に関する知的財産権は全てユーザーに帰属することとされており、商用利用を含めいかなる目的にも利用できるとされています。
したがって、ChatGPTを含め、OpenAI社のサービスのアウトプットはビジネス利用が可能です。
3. Content
(a) Your Content.
(略)Subject to your compliance with these Terms, OpenAI hereby assigns to you all its right, title and interest in and to Output. This means you can use Content for any purpose, including commercial purposes such as sale or publication, if you comply with these Terms.(略)
(注)上記の内容は2023年3月14日に改訂されたOpenAI社の利用規約に基づいています。OpenAI社の利用規約は頻繁に改訂されているため、実際にサービスの商用利用を検討するに当たっては、必ず最新の利用規約を確認してください。
商用利用の可否以外にも、プラットフォーマーがサービスの利用条件として制限事項等を設けている場合にはそれを遵守する必要があります。例えば、OpenAI社の利用規約2(c)では、制限事項として、他人の権利を侵害する方法でサービスを使用することや、モデルのソースコードを取得しようとすること、出力を人間が作成したものと表現することなどが禁止されています。
2. Usage Requirements
(c) Restrictions. You may not (i) use the Services in a way that infringes, misappropriates or violates any person’s rights; (ii) reverse assemble, reverse compile, decompile, translate or otherwise attempt to discover the source code or underlying components of models, algorithms, and systems of the Services (except to the extent such restrictions are contrary to applicable law); (iii) use output from the Services to develop models that compete with OpenAI; (iv) except as permitted through the API, use any automated or programmatic method to extract data or output from the Services, including scraping, web harvesting, or web data extraction; (v) represent that output from the Services was human-generated when it is not or otherwise violate our Usage Policies; (vii) buy, sell, or transfer API keys without our prior consent; or (viii), send us any personal information of children under 13 or the applicable age of digital consent. You will comply with any rate limits and other requirements in our documentation. You may use Services only in geographies currently supported by OpenAI.
また、そのほか重要な事項としては、個人データをサービスで使用する場合は、ユーザーは法的に適切なプライバシー通知を提供し、当該データの処理に同意を得るとともに、関連法規にしたがって当該データを処理していることをOpenAI社に通知する必要があるとしています(利用規約5.(c))。なお、個人情報の保護に関する問題については、次回の記事で扱います。
5. Confidentiality, Security and Data Protection
(c) Processing of Personal Data. If you use the Services to process personal data, you must provide legally adequate privacy notices and obtain necessary consents for the processing of such data, and you represent to us that you are processing such data in accordance with applicable law. If you will be using the OpenAI API for the processing of “personal data” as defined in the GDPR or “Personal Information” as defined in CCPA, please fill out this form to request to execute our Data Processing Addendum.
ここで紹介した利用条件はあくまでも一部であり、また、OpenAI社では利用規約以外にもサービスごとの利用条件(Sevice Terms)や追加の利用規定(Useage Policies)などが定められています。サービスの利用に当たっては、利用規約だけでなく他の規程も含め、利用条件について丁寧に確認することが重要です。
プラットフォーマーが、他者の開発・公開したモデルやデータセット(以下以下「モデル等」といいます。)を利用して自らのモデルを開発したい場合、公開されているモデル等には個別に使用許諾条件(ライセンス)が設定されています。
付与されているライセンスによって、そのモデル等を他者がどのように利用してよいか(いけないか)が決まっています。ライセンスにより規定される使用条件の主な内容としては以下のとおりです。
Github等でソースコードが公開されている場合は以下のようにライセンス情報を確認できます。図はEleutherAIが公開しているpythiaというモデルのレポジトリですが、付与されているライセンス名(図の①)のほか、ライセンスの内容を知りたい場合、ライセンスのファイルを参照することができます(図②)。このモデルの場合、MIT licenseというライセンスが設定されており、商用利用を含めて、モデルの改変、再配布等を自由に行うことができます。
Github以外では、Huggingface社のレポジトリでも多数のモデルが公開されています。モデル等のライセンス情報については概ね同様に確認できます。
モデル等のライセンス情報を確認する際に注意すべき事項として、公開されているソースコードの利用条件と学習済みモデルや学習に用いたデータセットの利用条件が異なる場合があります。
例えば、スタンフォード大学が公開しているAlpacaというモデルの場合、Github上ではコードのライセンスはApache-2.0と表示されています。Apache-2.0は商用利用可のライセンスです。しかし、ファイルをみると、通常の”LICENSE”以外にもデータセットのライセンス(”DATA_LICENSE”)や学習したモデルの重みのライセンス(”WEIGHT_DIFF_LICENSE”)が別途設定されています。
これについてREADME上でも説明がされており(下図)、Alpacaは研究利用のみを意図しており、学習に用いたデータセット及び学習したモデルの重み(weight diff)についてはCC BY NC 4.0という商用利用不可のライセンスが設定されています。したがって、Alpacaを商用利用したい場合は、自ら新たにデータセットを構築してモデルの学習を行う必要があります。
モデルによってはこのように、ソースコードとデータセットや学習済みモデルで異なるライセンスが設定されていることがあります。そのような場合は商用利用不可であることがどこかに明記されている可能性があるので、丁寧に確認することが必要です。
公開されたモデル等に付与されるライセンスには様々な種類があります。ライセンスによって、商用利用ができるものやできないもの、商用利用ができる場合でも、利用者が新たにライセンス条件を付与することを認める完全に自由なライセンス(Apache-2.0やMIT licenseなど)や、オリジナルのライセンス条件からの変更を認めないもの(GPLなど)など、細かい使用条件が設定されています。
以下では、興味があるモデル等のライセンス条件をクイックに確認したいという方向けに、オープンソースのライセンス情報を一覧にしてまとめています。適宜ご活用ください。
(注)ここに掲載している情報はあくまでも参考としていただき、特にモデル等の商用利用や外部への再配布等を検討している場合は、必ずライセンス情報の原文まで確認していただくようお願いします。なお、Open Souce Japan様において、各オープンソースライセンスの日本語参考訳を公開されていますので、必要に応じて併せてご参照ください。
ライセンス名 |
商用利用の可否: |
モデルやデータの改変の可否 |
モデルやデータの再配布の可否 |
原著作者を表示する義務の有無 |
その他の条件 |
ライセンス情報の原文URL |
---|---|---|---|---|---|---|
AFL-3.0 |
可 |
可 |
可 |
有 | ||
AGPL-3.0 |
可 |
可 |
可 |
有 |
同じライセンスでの再配布*6 | |
Apache License 2.0 |
可 |
可 |
可 |
有 | ||
Artistic License 2.0 |
可 |
可 |
可 |
有 |
同じライセンスまたはGPLでの再配布 | |
BigScience-BLOOM-RAIL-1.0 |
可 |
可 |
可 |
有 | ||
BigScience-OpenRail-M |
可 |
可 |
可 |
有 |
https://bigscience.huggingface.co/blog/bigscience-openrail-m https://drive.google.com/file/d/16NqKiAkzyZ55NClubCIFup8pT2jnyVIo/view | |
BSD-2-Clause |
可 |
可 |
可 |
有 | ||
BSD-3-Clause |
可 |
可 |
可 |
有 | ||
BSD-3-Clause-Clear |
可 |
可 |
可 |
有 | ||
BSL-1.0 |
可 |
可 |
可 |
有 | ||
CC0-1.0 |
可 |
可 |
可 |
無 | ||
CC-BY-2.0 |
可 |
可 |
可 |
有 | ||
CC-BY-2.5 |
可 |
可 |
可 |
有 | ||
CC-BY-3.0 |
可 |
可 |
可 |
有 | ||
CC-BY-4.0 |
可 |
可 |
可 |
有 | ||
CC-BY-NC-2.0 |
不可 |
可 |
可 |
有 |
非営利利用のみ | |
CC-BY-NC-3.0 |
不可 |
可 |
可 |
有 |
非営利利用のみ | |
CC-BY-SA-3.0 |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
CC-BY-SA-4.0 |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
CC-BY-ND-4.0 |
可 |
不可 |
可(非改変の場合のみ) |
有 | ||
CC-BY-NC-ND-3.0 |
不可 |
不可 |
可(非改変の場合のみ) |
有 |
非営利利用のみ | |
CC-BY-NC-ND-4.0 |
不可 |
不可 |
可(非改変の場合のみ) |
有 |
非営利利用のみ | |
CC-BY-NC-SA-2.0 |
不可 |
可 |
可 |
有 |
同じライセンスでの再配布、非営利利用 | |
CC-BY-NC-SA-3.0 |
不可 |
可 |
可 |
有 |
同じライセンスでの再配布、非営利利用 | |
CC-BY-NC-SA-4.0 |
不可 |
可 |
可 |
有 |
同じライセンスでの再配布、非営利利用 | |
C-UDA |
可 |
可 |
可 |
有 | ||
ECL-2.0 |
可 |
可 |
可 |
有 | ||
EUPL-1.2 |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
GFDL |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
GPL-1.0 |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
GPL-2.0 |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
GPL-3.0 |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
ISC |
可 |
可 |
可 |
有 | ||
LGPL-2.0 |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
LGPL-2.1 |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
LGPL-3.0 |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
LGPL-LR |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
MIT |
可 |
可 |
可 |
有 | ||
MPL-2.0 |
可 |
可 |
可 |
有 | ||
MS-PL |
可 |
可 |
可 |
有 | ||
NCSA |
可 |
可 |
可 |
有 | ||
odbl |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
ODC-BY |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 | |
OFL-1.1 |
可 |
可 |
可 |
有 |
同じライセンスでの再配布 |
https://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&id=OFL |
OpenRail |
可 |
可 |
可 |
有 |
https://huggingface.co/spaces/CompVis/stable-diffusion-license | |
OpenRail++ |
可 |
可 |
可 |
有 |
https://huggingface.co/stabilityai/stable-diffusion-2/blob/main/LICENSE-MODEL | |
PDDL |
可 |
可 |
可 |
無 | ||
PostgreSQL |
可 |
可 |
可 |
有 | ||
WTFPL |
可 |
可 |
可 |
無 | ||
zlib |
可 |
可 |
可 |
有 |
今回はLLMのビジネス利用を考える際に注意すべきこととして、まず入口の論点としてサービスの使用許諾条件について、プラットフォーマー、サービス提供者、ユーザーの方向けにご紹介しました。
LLMサービスのビジネス利用を思い立ったら、サービス提供者やユーザーの方においてはサービスの利用規約等を丁寧に参照し、商用利用の可否や制限事項について確認することが重要です。また、プラットフォーマーの方は、公開されているソースコード等を使用する場合は、ライセンス条件について丁寧に確認することが重要です。
最後までお読みいただき、有難うございました。以降の連載では、LLMサービスを利用する際に注意すべき法的なリスクについてご紹介していきます。
【関連記事】生成AI・LLMをビジネス適用するための検討ポイントおよびユースケース | DOORS DX
*1:大量のテキストデータを使ってトレーニングされた自然言語処理のモデルのことをいいます。大規模データセットを使って事前学習したモデルを、別のデータセットを使って再トレーニングするファインチューニングを行うことで、テキスト分類や感情分析、情報抽出、文章要約、テキスト生成、質問応答といった、さまざまな自然言語処理タスクに適応することができます。
*2:GPT-4の性能に関する詳細はOpenAI社のHPで参照できます。
*4:OpenAI社の利用規約では、サービスの入力(Input)と出力(Output)をまとめてコンテンツ(Cotent)と呼んでいます。
*5:モデル等の改変の有無によって再配布の可否が変わる場合もあります。
*6:「同じライセンスでの再配布」とは、ライセンスの利用者がモデルを他者に再配布する場合、オリジナルのライセンスの条件を変更してはならず、同じ条件でライセンスを付与しなければならないことを意味します(これをライセンスの継承といいます)。例えば、オリジナルのライセンスが商用利用可であった場合、再配布する場合のライセンスを商用利用不可とすることはできません。
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説