Tag: LLM
記事 (24)
-
AlpacaEval、AlpacaEval 2.0とは?LLMの指示追従性能を測る評価ベンチマークを解説
AlpacaEvalとAlpacaEval 2.0の概要、LLMの指示追従性能を比較する仕組みやwin rateなど主要指標をわかりやすく解説。
-
LLMにおける「reasoning」とは? — わかりやすく解説
LLMにおけるreasoning(推論)とは何かを、文章生成との違い、必要な理由、能力を高める工夫とあわせてわかりやすく解説します。
-
長期記憶を持つ?言語モデルのアーキテクチャ「Titans」の革新性をわかりやすく解説
Titansの仕組みと革新性を解説。推論時の記憶を活用し、TransformerやRNN/LSTMの長期記憶と長文処理の課題をどう克服するかをわかりやすく紹介。
-
UltraFeedbackの意味と使い方について:生成されたフィードバックによる大規模言語モデルの強化
UltraFeedbackの意味と使い方を解説。AIが生成したフィードバックで人手のコストを抑えつつ、DPOなどを通じてLLMの性能を高める仕組みを紹介します。
-
大規模言語モデルの要約性能の評価指標の一覧について
大規模言語モデルの要約性能を評価する主要指標を解説。ROUGE、BLEU、METEORなどの特徴や長所・短所を一覧で整理します。
-
【超入門】ChatGPTなどの言語モデルはなぜ嘘をついてしまうのか?わかりやすく話します
ChatGPTなどの言語モデルが嘘のような誤情報を出す理由を、ハルシネーションの例と確率的な仕組みから超入門向けに解説します。
-
LLM(大規模言語モデル)の軽量化の手法について
LLMの軽量化手法を解説。計算負荷やメモリ消費を抑える目的、リソース制約への対応、運用コスト削減、リアルタイム処理の利点を紹介。
-
【Transformers】エラーValueError: Asking to pad but the tokenizer does not have a padding token. Please select a token to use as `pad_token`・・・・解決方法
Transformersで「padding tokenがない」と出るValueErrorの原因と解決方法を解説。pad_tokenの設定方法をコード付きで紹介します。
-
大規模言語モデルにおけるpadding_token[PAD]の意味について
大規模言語モデルや自然言語処理で使うpadding_token[PAD]の意味を解説。入力文の長さをそろえる役割や使い方をやさしく紹介します。
-
【Transformers】温度(temperature)の意味とは?ソフトマックス関数の調整について
Transformersのtemperatureがテキスト生成のランダムさをどう変えるのかを、softmax関数による確率分布の調整から解説します。
-
【Transformers】AutoModelForCausalLMの意味と使い方について
TransformersのAutoModelForCausalLMとは何かを解説。因果的言語モデルの意味、特徴、テキスト生成での使い方をわかりやすく紹介。
-
【Transformers】LLMにおける文脈的なlogitの意味
logitの基本定義から、ロジスティック回帰での使われ方、LLMでの文脈的な意味の違いまでをわかりやすく解説します。
-
「Gemma-2-9B」の力を試す!アニメと数学についてGoogleのAIに質問してみた
GoogleのAI「Gemma-2-9B」にアニメと数学について質問し、その応答から性能や特徴、pythonでの実行環境を紹介する記事。
-
PythonでDatasetsのmapメソッドを使ったデータ整形の方法
PythonのDatasetsライブラリでmapメソッドを使い、データセットの各サンプルに関数を適用して前処理・データ整形する基本手順を解説します。
-
数学に特化した言語モデル!NuminaMath-7B-TIRグラフの表示や数学の問題を解く
NuminaMath-7B-TIRの概要や特徴、数式生成・数学的推論・問題解決への活用、Pythonでのグラフ表示や数学問題の解き方を紹介します。
-
ValueError: The checkpoint you are trying to load has model type `gemma2` but Transformers does not recognize this architecture.の解決方法!gemma2の読み込み
Transformersでgemma2読み込み時に発生する「model type 'gemma2'を認識しない」エラーの原因と、アップデートによる解決方法を解説します。
-
meta-llama/Meta-Llama-3-8Bの使い方!導入から活用までの徹底解説
Meta-Llama-3-8Bの特徴、Hugging Faceでの導入手順、Pythonによる実行方法、活用例までをわかりやすく解説します。
-
bert-base-japanese-v2の使い方!MASKされた日本語を推測する
東北大学開発の日本語BERT「bert-base-japanese-v2」の特徴と、MASKされた語を推測するMLMの使い方をやさしく解説。
-
Flaskで始める固有表現抽出!SpaCyとGiNZAを使った固有表現抽出(ner)の作り方!
Flaskで固有表現抽出を始めたい人向けに、SpaCyとGiNZAを使ったNERの基本、抽出対象、人名・地名・組織名を判定するアプリの作り方を解説します。
-
deepsetのbert-large-uncased-whole-word-masking-squad2の使い方!Question Answering
deepsetのbert-large-uncased-whole-word-masking-squad2の特徴と、SQuAD2.0で学習されたBERT系QAモデルの使い方を解説します。
-
bert-large-uncased を使ってみよう!MLMを試す!
bert-large-uncasedの特徴と使い方を解説。336M paramsの英語事前学習BERTで、MLMによるマスク予測を試します。
-
bert-base-casedの使い方!Case Sensitiveを確認する!
bert-base-casedの使い方を解説。BERTの基本、MLMの仕組み、bert-base-uncasedとの違い、Case Sensitiveの挙動を分かりやすく確認します。
-
【Transformers】SwallowをHugging Faceで使う方法
日本語特化LLM「Swallow」の特徴やモデル種類をふまえ、Hugging FaceとTransformersで使う方法をわかりやすく紹介します。
-
スパコン「富岳」で学習したFugaku LLMをHugging Faceからダウンロードして使う方法
スパコン「富岳」で学習された日本語LLM「Fugaku LLM」を、Hugging Faceから認証トークン取得後にダウンロードして使う方法を解説。