Sora–12 Days of OpenAI: Day 3 まとめ

以下は「Soraのローンチイベント」のまとめです。


Soraの主な機能と利点

  1. ビデオ生成のデモンストレーション:
    • テキストや画像を元にしたビデオ生成のプロセスを公開。
    • 高速化とコスト削減を実現した「Sora Turbo」を紹介。
  2. Explore機能:
    • コミュニティが共有するビデオを閲覧し、技術を学べる場を提供。
  3. ストーリーボード機能:
    • 複数のアクションをタイムラインでシーケンス化し、詳細なビデオディレクションが可能。
  4. 画像からビデオへの変換:
    • アップロードした画像を解析し、自動でビデオを生成。
  5. 編集とリミックス機能:
    • ビデオの特定部分を編集し、新しい要素を追加。
    • ループやブレンド機能で独自のシーンを作成可能。

リリースと利用方法

  • Soraは米国を含む多くの国で利用可能。
  • ChatGPT Plus Proアカウントがあれば追加料金なしで使用できる。

Soraの未来とコミュニティ

  • フィードを通じて他のユーザーの作品を閲覧し、インスピレーションを得る場としても機能。
  • ユーザーのフィードバックを基にさらなる改善を予定。

Google Chromeの拡張機能の保存場所

Google Chromeの拡張機能は、各プラットフォームごとに異なるフォルダ内に格納されています。代表的な保存先は以下の通りです。

Windows (例: Windows 10/11)

C:\Users\<ユーザー名>\AppData\Local\Google\Chrome\User Data\Default\Extensions

macOS

/Users/<ユーザー名>/Library/Application Support/Google/Chrome/Default/Extensions/

Linux系OS (例: Ubuntu)

~/.config/google-chrome/Default/Extensions/

<ユーザー名> の部分は、実際のユーザー名で置き換えてください。また、Chromeのプロファイルを複数使用している場合、Default 部分が Profile 1Profile 2 のように変わることがあります。
なお、これらのディレクトリ内では、拡張機能ごとにユニークなID(32文字前後の文字列)をフォルダ名として拡張機能データが保存されています。

AWSのセキュリティグループは「仮想ファイアウォール」のようなもの

AWSのセキュリティグループは、サーバー内部のパケットフィルタ(例えばiptables)とは異なり、AWSインフラ側の仮想化レイヤーで動作する「仮想ファイアウォール」のようなものです。基本的にはインバウンド・アウトバウンドトラフィックを特定のポートやプロトコル、IPアドレスレンジに基づいて制御します。

3306ポート(MySQL)へのアクセスをセキュリティグループで「特定のIPアドレスだけ許可」している場合、その指定したIPアドレス以外からの接続はAWSのネットワークレベルでブロックされ、外部からの不正アクセスやスキャンを直接受けることはありません。しかし、許可したIPアドレスからのアクセスは(そのIPが正規ユーザーである前提で通常は安全ですが)、もしそのIPが何らかの理由で攻撃者に制御されていたり、攻撃者がそのIPアドレス領域を利用できる状態であれば、そのIP経由でのブルートフォース攻撃やハッキング行為を行われる可能性は残ります。

要点としては、

  • セキュリティグループは指定した条件以外からのアクセスをシャットアウトするため、基本的な外部からの攻撃表面は大幅に減らせます。
  • しかし、あくまで「許可したIPからのアクセスは通してしまう」ため、そのIPが攻撃者に利用されるようなケースでは依然としてブルートフォース攻撃などを受け得ます。
  • そのため、安全性を更に高めるには、MySQL自体のセキュリティ対策(強力なパスワード、二要素認証に準ずる仕組み、特定のユーザーに対する接続制限、頻回なパスワード試行に対するアカウントロックなど)や、VPN接続・PrivateLink、踏み台サーバー(ジャンプホスト)の利用など、追加の防御手段が有効です。

BigQueryとMySQLの違いなど

BigQueryはSQLライクなインターフェースを提供していますが、MySQLとは使い方が若干異なります。データの管理方法や設計がBigQuery特有の仕組みに基づいており、データベースの構築やテーブルの管理の流れも少し異なります。以下に違いを詳しく説明します。


基本的な使い方の流れ

1. MySQLの流れ

MySQLでは以下の順序で操作します:

  1. データベースを作成 CREATE DATABASE my_database;
  2. テーブルを作成 CREATE TABLE my_table ( id INT AUTO_INCREMENT PRIMARY KEY, name VARCHAR(255), created_at DATETIME );
  3. データを挿入 INSERT INTO my_table (name, created_at) VALUES ('John', NOW());
  4. データをクエリで取得 SELECT * FROM my_table;

2. BigQueryの流れ

BigQueryでは、少し異なる概念でデータを管理します:

  1. プロジェクトを作成
    • BigQueryの最上位概念は「プロジェクト」です。プロジェクトごとにリソースを管理します。
    • Google Cloud Consoleでプロジェクトを作成します。
  2. データセットを作成
    • BigQueryでは「データセット」がデータベースの役割を果たします。
    • 例: my_project.my_dataset
    • データセットの作成はGUIやCLIで行えます。
  3. テーブルを作成
    • データセット内にテーブルを作成します。
    • 例: CREATE TABLE my_project.my_dataset.my_table ( id INT64, name STRING, created_at TIMESTAMP );
  4. データを挿入
    • BigQueryではデータの挿入は主にバッチ処理やデータインポート機能で行います。
    • 小規模データの場合: INSERT INTO my_project.my_dataset.my_table (id, name, created_at) VALUES (1, 'John', CURRENT_TIMESTAMP());
    • 大規模データの場合:
      • CSVやJSONをGoogle Cloud Storageにアップロードし、テーブルにロードします。
  5. データをクエリで取得
    • クエリはMySQLとほぼ同じ構文で記述できます: SELECT * FROM my_project.my_dataset.my_table;

BigQueryとMySQLの違い

項目MySQLBigQuery
データベースデータベース(CREATE DATABASE で作成)データセットがデータベースに相当
テーブルテーブルを作成し、データを直接挿入テーブル作成後、データは主にバッチでインポート
スキーマ変更動的(ALTER TABLEが容易)テーブル作成時にスキーマを固定(変更は非推奨)
クエリ速度単一ノードのパフォーマンス分散システムで大規模データを高速処理
データサイズ数十GB~数百GB程度が適している数百GB~ペタバイト規模でも高速処理可能
トランザクションACIDトランザクションをサポートトランザクションは非対応(分析に特化)
価格モデルサーバー維持費(月額や時間課金)ストレージ+クエリ従量課金(使った分だけ)

まとめ

  • BigQueryの基本的な操作は、MySQLの「データベース」や「テーブル」に似ていますが、プロジェクトデータセットという概念が加わっています。
  • 大量データの分析に特化しており、データの挿入方法もバッチ処理やクラウドストレージ経由が一般的です。
  • クエリはMySQLとほぼ同じように記述できるため、SQLに慣れているなら移行は簡単です。

小規模アプリケーションでトランザクションを必要とする場合はMySQL、大規模なデータ分析を必要とする場合はBigQueryが適しています。

AIにおけるRAGとは?

AIにおける**RAG(Retrieval-Augmented Generation)とは、情報検索(Retrieval)と生成(Generation)の仕組みを組み合わせたAIアーキテクチャを指します。この手法は、特に自然言語処理(NLP)**の分野で注目されており、大規模言語モデル(LLM)をより有用で正確な形で活用するために設計されています。


RAGの基本構造

RAGは、以下の2つの主要なコンポーネントから構成されます。

  1. 情報検索(Retrieval):
    • 外部の知識ベースやデータベース(例: 文書コレクション、Wikipedia、カスタムデータセット)から関連する情報を検索します。
    • ベクトル検索や類似性検索などの手法を用いて、質問やトピックに関連する文書や情報を取得します。
  2. 生成(Generation):
    • 検索してきた情報をもとに、大規模言語モデル(GPT、T5など)で回答や文章を生成します。
    • 検索した情報を文脈に取り込みつつ、自然で一貫性のある応答を出力します。

RAGの仕組み

1. ユーザーの入力

  • ユーザーが質問や要求を入力します(例: 「AIとは何ですか?」)。

2. 情報検索フェーズ

  • 入力を元に関連する文書を外部知識ベースから検索します。
  • 検索結果は、入力内容と一致する最も関連性の高い文書やデータ(例: Wikipediaの記事)が抽出されます。

3. 生成フェーズ

  • 検索結果とユーザーの入力を一緒に大規模言語モデルに渡し、回答や文章を生成します。
  • 生成された結果は、検索結果を反映した形で応答します。

RAGの利点

  1. 知識の最新性:
    • 通常のLLM(事前学習済みモデル)は学習時点での情報に依存しますが、RAGは外部データベースからリアルタイムで情報を取得できるため、最新の情報を反映できます。
  2. カスタマイズ性:
    • 独自のデータベースやドキュメントを知識ベースとして設定することで、専門分野や特定の用途に特化したAIシステムを構築できます。
  3. 回答の精度向上:
    • 情報を検索してから生成するため、信頼性や事実性が向上します。
    • LLM単独の生成では発生しやすい「幻覚(Hallucination)」問題を軽減します。
  4. 軽量な学習プロセス:
    • モデル全体をファインチューニングする必要がなく、検索エンジン部分を改善するだけで対応可能。

RAGの用途

  1. FAQシステム:
    • 特定の企業やサービスに関する問い合わせ対応に活用。
    • 例: 顧客が「返品ポリシーを教えてください」と質問すると、RAGが関連するポリシー文書を検索して回答。
  2. カスタマーサポート:
    • サポートドキュメントや過去のやり取りを元に、ユーザーに正確な応答を生成。
  3. 法律・医療分野:
    • 法律文書や医療データベースを利用して、専門的で正確な回答を提供。
  4. 学術リサーチ:
    • 論文データベースから必要な情報を引き出し、簡潔にまとめた内容を提供。
  5. コンテンツ生成:
    • 関連する情報を検索し、それを元にブログ記事やマーケティングコンテンツを作成。

RAGの技術スタック例

検索部分(Retrieval)

  • ベクトルデータベース:
    • Pinecone, Weaviate, Milvus, FAISS など。
    • 質問と文書の類似性を計算して関連性の高い文書を取得。
  • TF-IDF / BM25:
    • 伝統的な情報検索アルゴリズム。

生成部分(Generation)

  • 大規模言語モデル(LLM):
    • GPT(OpenAI), T5(Google), BERT など。

RAGの簡単なコード例

以下はPythonとHugging Faceを使ったRAGの基本例です。

from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration

# モデルとトークナイザーの準備
tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq")
retriever = RagRetriever.from_pretrained("facebook/rag-sequence-nq", use_dummy_dataset=True)
model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence-nq", retriever=retriever)

# 入力クエリ
input_text = "What is AI?"
inputs = tokenizer(input_text, return_tensors="pt")

# 回答生成
outputs = model.generate(**inputs)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

RAGと従来のモデルとの違い

特徴従来のLLMRAG
知識の範囲事前学習時点までの情報外部データベースを利用
記憶容量固定(モデルサイズ依存)動的(外部検索で拡張)
最新情報の反映難しい可能
専門性の高い用途への対応難しい簡単(知識ベース変更)

RAGは、事前学習済みのモデルだけで不足する「最新性」や「専門性」を補い、より多様な用途で活用可能なAIシステムを実現する強力なアプローチです。

初心者にも分かりやすいRAGの具体例

RAG(Retrieval-Augmented Generation)の仕組みを初心者にも分かりやすい事例で説明します。今回は、**「AIによる会社のFAQ応答システム」**を作るシナリオを例にします。


事例: FAQ応答システムを作る

背景:

ある会社では、顧客からよく以下のような質問が寄せられます:

  • 「返品ポリシーはどうなっていますか?」
  • 「製品の保証期間はどれくらいですか?」
  • 「どの支払い方法に対応していますか?」

しかし、これらの質問にすべて人間が答えるのは大変です。そこで、AIを使って自動応答システムを構築したいと思いました。


従来のAIシステムの課題

通常のAI(大規模言語モデルなど)を使う場合:

  • 事前に学習した知識に基づいて回答するため、情報が古い可能性がある。
  • 特定の会社の情報(返品ポリシーや支払い方法など)はAIが知らないことが多い。
  • データベースの内容が更新されても、AIに新たに学習させる必要がある。

RAGを使った解決方法

RAGを使うと、次のような仕組みで問題を解決できます:

  1. 情報検索(Retrieval):
    • 会社のFAQデータベースやマニュアルをAIが検索して、質問に関連する情報を見つけます。
  2. 生成(Generation):
    • 検索結果をもとに、大規模言語モデルが自然な回答を生成します。

RAGの仕組みを図でイメージ

  1. ユーザーの質問: 「返品ポリシーはどうなっていますか?」
  2. 検索フェーズ:
    • AIがFAQデータベースから「返品ポリシーに関する文書」を探し出す。
    • 例えば、「返品は30日以内で未使用の場合のみ可能です」という文書が見つかる。
  3. 生成フェーズ:
    • AIが検索結果をもとに自然な文章を生成。
    • 回答例: 「当社では、返品は購入日から30日以内で、未使用の状態に限り受け付けています。」

具体的なステップ

1. FAQデータベースの準備

以下のような情報をデータベースに保存します:

  • 返品ポリシー: 「返品は購入日から30日以内で、未使用の場合のみ可能です。」
  • 保証期間: 「すべての製品に1年間の保証が付いています。」
  • 支払い方法: 「クレジットカード、銀行振込、PayPayに対応しています。」

2. ユーザーの質問

  • ユーザー: 「保証期間について教えてください。」

3. 検索

AIは「保証期間」というキーワードに基づいてデータベースを検索します。
該当する文書: 「すべての製品に1年間の保証が付いています。」

4. 生成

AIは、検索した情報を自然な文章に変換して回答します。
AIの回答: 「当社のすべての製品には1年間の保証が付いていますのでご安心ください。」


RAGを使ったコード例(簡略版)

以下は、PythonとHugging Faceのライブラリを使った簡単なRAG実装例です。

from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration

# モデルの準備
tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq")
retriever = RagRetriever.from_pretrained("facebook/rag-sequence-nq", use_dummy_dataset=True)
model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence-nq", retriever=retriever)

# ユーザーの質問
question = "返品ポリシーについて教えてください。"

# 入力データをトークン化
inputs = tokenizer(question, return_tensors="pt")

# 回答生成
outputs = model.generate(**inputs)
answer = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("AIの回答:", answer)

RAGのメリットを初心者視点で説明

  1. 最新情報を反映できる:
    • 会社のポリシーが変更された場合でも、データベースを更新するだけで済みます。AIを再学習させる必要がありません。
  2. 柔軟で効率的:
    • 膨大な情報を覚えさせなくても、必要なときに検索して答えるため、システムの構築が簡単です。
  3. 自然な回答:
    • ただ文書をそのまま返すのではなく、人間が答えたような自然な文章に変換してくれます。

初心者向けのまとめ

RAGは、「検索エンジン」と「言葉を作るAI」の組み合わせと考えると分かりやすいです。ユーザーの質問に対して必要な情報を探し出し、それを分かりやすく伝える力を持っています。この仕組みは、FAQ応答システムのようなリアルな課題解決にとても役立つ技術です!

AIにおけるファインチューニングとは

AIにおけるファインチューニング(Fine-Tuning)は、既存の機械学習モデル(特に事前学習済みモデル)を、特定のタスクやデータに適応させるために再トレーニングするプロセスを指します。この手法は、ゼロからモデルを構築するよりも効率的で、トレーニングデータや計算リソースを節約できる利点があります。


ファインチューニングの主なポイント

  1. 事前学習済みモデルの活用:
    • ファインチューニングでは、汎用的なデータ(たとえば画像認識モデルではImageNetデータセットなど)で事前学習されたモデルを利用します。
    • 事前学習済みモデルは、一般的な特徴(例えば画像ならエッジやテクスチャ、NLPなら単語や文の意味)を学習済みです。
  2. タスク固有のデータで再トレーニング:
    • 自分の特定のタスクに適応させるため、小規模でもターゲットタスクに関連するデータセットを用いてモデルを再調整します。
  3. 転移学習との関連性:
    • ファインチューニングは転移学習の一種で、特に事前学習済みモデルの一部を再トレーニングする形で行われます。
  4. 全体トレーニング vs 部分トレーニング:
    • 全体トレーニング: モデル全体を再トレーニングする。
    • 部分トレーニング: 特定の層だけを再トレーニングする(通常は最終層やタスクに近い部分)。

主な用途

  • 画像分類: 例えば、事前学習済みのResNetを使い、医療画像(X線やMRI)の診断モデルを構築。
  • 自然言語処理(NLP): GPTやBERTのようなモデルをファインチューニングして、カスタムな質問応答システムや感情分析モデルを構築。
  • 音声認識: 音声認識モデルを特定の言語やアクセントに適応。

ファインチューニングのプロセス

  1. データ準備:
    • タスク固有のデータを収集し、適切にラベル付け。
    • データの前処理(クリーニング、正規化など)。
  2. 事前学習済みモデルのロード:
    • TensorFlowやPyTorchで利用可能な事前学習済みモデルをロード。
  3. モデルの調整:
    • 出力層を置き換える(たとえば、画像分類では新しいクラス数に対応させる)。
    • 必要に応じて一部の層をフリーズ。
  4. トレーニング:
    • タスク固有のデータセットでモデルを再トレーニング。
  5. 評価と調整:
    • モデルの性能を評価し、ハイパーパラメータ(学習率、バッチサイズなど)を調整。

ファインチューニングのメリット

  • 効率的: 少量のデータと計算リソースで済む。
  • 精度向上: タスクに特化した高精度なモデルを作れる。
  • 実用性: 既存モデルを再利用することで、新しいタスクに迅速に適応可能。

使用例

画像分類 (PyTorch例):

import torch
from torchvision import models
from torch import nn, optim

# 事前学習済みモデルをロード
model = models.resnet50(pretrained=True)

# 出力層をタスク固有に置き換え
model.fc = nn.Linear(model.fc.in_features, num_classes)

# 最適化と損失関数の設定
optimizer = optim.Adam(model.parameters(), lr=0.001)
criterion = nn.CrossEntropyLoss()

# 再トレーニング
for epoch in range(num_epochs):
    for images, labels in dataloader:
        optimizer.zero_grad()
        outputs = model(images)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

ファインチューニングを適切に活用することで、既存のリソースを活かしつつ、特定のタスクに高性能なモデルを実現できます。

初心者にも分かりやすいファインチューニングの具体例

ファインチューニングの具体例を、初心者にも分かりやすい形で説明します。以下の例では、猫と犬を分類するAIモデルを作る場合を考えます。


事例:猫と犬を分類するAIを作る

背景:

あなたは、自分のスマホに猫と犬の写真を撮ったら、自動的に猫か犬かを判定してくれるアプリを作りたいと思っています。しかし、ゼロからAIモデルを作るのは大変です。そこで、すでに公開されている「犬や猫だけでなく、多くの動物を分類できるAIモデル」を利用します。このモデルを「猫 vs 犬」専用に仕立て直すのがファインチューニングです。


1. 事前学習済みモデルの利用

すでに研究者や企業が開発した「画像分類モデル」(例えばGoogleが作ったInceptionやResNet)が存在します。このモデルは、1,000種類以上の物体を分類する能力を持っています。

  • できること:
    • 猫、犬、車、飛行機、花など、たくさんの物体を識別。
  • 課題:
    • このモデルは、私たちの目的(猫と犬だけの分類)には特化していません。

2. 自分のタスクに特化させる(ファインチューニング)

① 写真を準備する:

  • スマホで猫と犬の写真をそれぞれ100枚撮影します。
  • データセットを用意するため、フォルダを分けます。
    • cats/フォルダに猫の写真を保存。
    • dogs/フォルダに犬の写真を保存。

② モデルの調整:

事前学習済みモデルを使い、出力層(分類の部分)を「猫」か「犬」の2クラスだけに変更します。


3. ファインチューニングのプロセス

具体的なコード例(Python + PyTorchの場合)

以下のコードを実行するだけで、事前学習済みモデルを利用して猫と犬を分類するAIが作れます。

import torch
from torchvision import datasets, models, transforms
from torch import nn, optim

# 画像の前処理(リサイズ・正規化など)
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

# データセットの準備
train_data = datasets.ImageFolder('path_to_training_data', transform=transform)
train_loader = torch.utils.data.DataLoader(train_data, batch_size=32, shuffle=True)

# 事前学習済みモデルのロード(ResNet50)
model = models.resnet50(pretrained=True)

# 出力層を置き換える(猫と犬の2クラス用)
model.fc = nn.Linear(model.fc.in_features, 2)

# 損失関数と最適化手法の設定
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# モデルのトレーニング
num_epochs = 5
for epoch in range(num_epochs):
    for images, labels in train_loader:
        optimizer.zero_grad()
        outputs = model(images)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

# 学習済みモデルを保存
torch.save(model.state_dict(), 'cat_dog_classifier.pth')
print("ファインチューニング完了!")

4. 実際にモデルを使う

  • 学習が終わったモデルを使い、スマホで撮った写真を入力すると、「これは猫です」「これは犬です」と判定してくれます。

ファインチューニングのメリット

  1. 時間がかからない:
    • ゼロから作るのではなく、基盤ができているので短期間で完成。
  2. 少ないデータでOK:
    • 猫と犬の写真がそれぞれ100枚程度あれば十分。
  3. 初心者でも試せる:
    • 必要な作業はモデルを再利用し、分類部分だけを調整すること。

まとめ

ファインチューニングは、すでに存在する賢いAIを少しだけ自分用にカスタマイズする方法です。この方法を使えば、少ないデータと簡単な調整で、猫と犬を判定する専用モデルを作ることができます!

Reinforcement Fine-Tuning—12 Days of OpenAI: Day 2 まとめ


OpenAIのO1モデルと強化学習によるファインチューニング

O1モデルの概要

  • OpenAIの最新モデル「O1」は、応答前に考える能力を持つ高度なAIモデル。
  • モデルは、正式リリースされ、近い将来APIでの利用も可能に。
  • ユーザーが自身のデータセットでカスタマイズできるプログラムが進化しており、より高精度なチューニングが可能。

強化学習によるファインチューニング

通常のファインチューニングとの違い

  • 通常の監督付きファインチューニングは与えられたデータに基づく学習。
  • 一方、強化学習ファインチューニングは、少数の例を基にモデルが新たな推論方法を学ぶ。
  • モデルが問題を解く際の「思考プロセス」を強化することで、正しい答えに辿り着く能力を向上。

主な利点

  • ゴールデンデータセットをユニークな価値のあるモデルに変換可能。
  • 法律、金融、工学など、専門分野での応用が期待されている。

実例と応用分野

  1. 法律分野:
    • Thomson Reutersとの提携により、O1 Miniが法務アシスタントとして利用され、専門家の業務効率を向上。
  2. 科学研究:
    • 遺伝性疾患の診断支援で期待される。
    • 例: Berkeley Labとの協力で、症状と遺伝子の関連性を解析するデータセットを構築。
  3. その他の応用:
    • 医療、AIセーフティ、バイオケムなど、多岐にわたる分野での利用可能性。

実演と結果

  • 小型モデル「O1 Mini」をファインチューニングし、大型モデルの性能を超える結果を実証。
  • トレーニングと評価プロセスで、正確性と効率性の向上が確認された。

今後の展望

  • 来年初めに「強化学習ファインチューニング」を公開予定。
  • 科学研究、産業応用のさらなる発展に寄与することが期待されている。

結び

O1モデルと強化学習ファインチューニングは、AIの可能性を広げ、より多くの課題解決に役立つツールとして進化を続けています。特に専門分野での活用において、その能力は大きな期待を集めています。

Llama ダウンロードページの解説

1. Llamaモデルとは

Llamaは、Meta社が提供する大規模言語モデル(LLM)で、さまざまな用途や要件に応じて使用可能です。

モデルは以下の種類に分かれています:

  • Pretrained(事前学習済みモデル)
    微調整やカスタマイズに最適な基本モデル。
  • Fine-tuned(微調整済みモデル)
    特定の目的(例:チャットや指示対応)に合わせて調整されたモデル。
  • Trust and Safety Models(信頼性・安全性に特化したモデル)
    セキュリティや倫理面での課題をサポートする特化型モデル。

2. ダウンロード手順

(1) Llama CLIのインストール

まず、Llama CLIをインストールします。以下のコマンドを実行してください:

pip install llama-stack

CLIが既にインストールされている場合は以下でアップデート:

pip install llama-stack -U

(2) モデルのリストを確認

利用可能なモデルを確認するには以下のコマンドを実行します:

llama model list

古いモデルも含めてすべてを表示するには:

llama model list --show-all

(3) モデルを選択してダウンロード

希望するモデルのIDを指定してダウンロードします:

llama model download --source meta --model-id MODEL_ID

スクリプト実行中に「カスタムURL」を求められた場合、提供されたURL(例:https://llama3-2-lightweight.llamameta.net/...)を入力します。

(4) ダウンロードURLの注意

URLは48時間有効で、各モデルは最大5回までダウンロード可能です。このURLはメールでも送信されるため、期限内に利用するようにしてください。


3. 提供されるモデル

モデルは用途やサイズ別に用意されています。

Pretrained(事前学習済みモデル)

  • Llama-3.2シリーズ
    サイズ:1B、3B、11B(Vision対応)、90B(Vision対応)
  • Llama-3.1シリーズ
    サイズ:70B、405B(大規模)

Fine-tuned(微調整済みモデル)

  • 特定の用途に合わせて最適化されたモデル。例:
    • Llama-3.2-3B-Instruct
    • Llama-3.1-8B-Instruct

Trust and Safety Models(信頼性モデル)

  • Llama Guardシリーズ
    セキュリティや倫理的問題への対応に特化。

4. 特別な405Bモデルについて

405Bモデルは非常に大規模で、使用には特別なリソースが必要です。

  • MP16(Model Parallel 16)
    BF16(半精度浮動小数点)の完全版で、複数ノードが必要(最低8GPUを2台)。
  • FP8(Floating Point 8)
    量子化版で、1ノード8GPUで動作可能。

405Bモデルはストレージ750GBを使用し、高性能なGPU環境が必要です。


5. 開発支援ツール

Code Shield

  • コード生成時のセキュリティリスクを軽減します。

Cybersecurity Eval

  • サイバーセキュリティ分野のベンチマークテストに対応します。

6. 使用上の注意

  1. 責任ある利用
    利用ガイドやライセンス条件に従って使用してください。
  2. フォーマットに注意
    Fine-tunedモデルでは適切なトークン形式を使用する必要があります。