本術語表涵蓋 AI、機器學習、深度學習和大型語言模型領域的核心概念。 按字母順序排列,方便查閱。
神經網路中用於引入非線性的函數。常見的有 ReLU、Sigmoid、Tanh、GELU 等。
一種結合 Momentum 和 RMSprop 優點的自適應學習率優化算法,是深度學習中最常用的優化器之一。
能夠感知環境並採取行動以實現目標的自主系統。在 LLM 領域,指能使用工具、做決策的 AI 系統。
確保 AI 系統的行為符合人類意圖和價值觀的技術。包括 RLHF、DPO、Constitutional AI 等方法。
允許模型在處理輸入時動態地關注不同部分的機制。是 Transformer 架構的核心組件。
自動化機器學習流程的技術,包括特徵工程、模型選擇、超參數調優等。
一種考慮激活值分佈的權重量化方法,能在保持精度的同時大幅減少模型大小。
訓練神經網路的核心算法,通過計算損失函數對每個參數的梯度來更新權重。
每次訓練迭代中使用的樣本數量。影響訓練速度、記憶體使用和模型收斂。
Google 開發的預訓練語言模型,使用雙向 Transformer 編碼器,開創了 NLP 預訓練時代。
一種子詞分詞算法,通過迭代合併最頻繁的字符對來構建詞彙表。GPT 系列使用此方法。
一種提示技術,引導 LLM 逐步推理以解決複雜問題,顯著提升推理能力。
訓練過程中保存的模型狀態,用於恢復訓練或部署模型。
OpenAI 開發的視覺-語言模型,通過對比學習將圖像和文本映射到共同的嵌入空間。
Anthropic 提出的對齊方法,使用一組原則("憲法")來指導 AI 行為。
LLM 一次能處理的最大 token 數量。GPT-4 為 128K,Claude 3 為 200K。
測量兩個向量之間角度的相似度度量,常用於比較嵌入向量。
分類任務中常用的損失函數,衡量預測概率分佈與真實分佈之間的差異。
Transformer 架構中負責生成輸出序列的部分。GPT 系列是純解碼器架構。
神經網路中每個神經元都與前一層所有神經元連接的層。
通過學習逆轉逐步添加噪聲的過程來生成數據的生成模型。Stable Diffusion、DALL-E 3 基於此技術。
將大模型(教師)的知識轉移到小模型(學生)的技術,用於模型壓縮。
直接偏好優化,一種不需要訓練獎勵模型的對齊方法,比 RLHF 更簡單高效。
訓練時隨機丟棄部分神經元的正則化技術,用於防止過擬合。
將離散數據(如文字、圖像)映射到連續向量空間的表示方法。
Transformer 架構中負責處理輸入序列的部分。BERT 是純編碼器架構。
完整遍歷一次訓練數據集的過程。
衡量模型性能的標準,如準確率、F1 分數、BLEU、ROUGE、困惑度等。
使用少量示例讓模型學習新任務的能力。GPT-3 展示了強大的 few-shot 能力。
在預訓練模型基礎上,使用特定任務數據進行進一步訓練的過程。
一種高效的注意力計算方法,通過優化記憶體訪問模式大幅加速 Transformer。
在大規模數據上預訓練的模型,可適應多種下游任務。如 GPT-4、Claude、LLaMA。
LLM 生成結構化輸出以調用外部函數或 API 的能力。
由生成器和判別器組成的生成模型,通過對抗訓練生成逼真數據。
一種激活函數,被 BERT、GPT 等模型廣泛使用。
通過計算損失函數的梯度來迭代更新參數的優化算法。
一種後訓練量化方法,可將模型壓縮到 4-bit 或更低,同時保持精度。
分組查詢注意力,在 MHA 和 MQA 之間取得平衡,被 LLaMA 2 等模型採用。
結合知識圖譜和 RAG 的檢索增強生成方法,提供更結構化的上下文。
LLM 生成看似合理但實際錯誤或虛構內容的現象。是 LLM 應用的主要挑戰之一。
Hidden State (隱藏狀態)
神經網路中間層的輸出,包含輸入的學習表示。
在訓練前設定的參數,如學習率、批次大小、層數等。需要通過實驗調整。
LLM 通過提示中的示例學習執行新任務的能力,無需更新參數。
使用訓練好的模型進行預測的過程。
使用指令-回應對微調 LLM,使其更好地遵循人類指令。
LLM 輸出結構化 JSON 格式的能力,便於程序化處理。
在 Transformer 推理時緩存過去的 Key 和 Value,避免重複計算,加速生成。
見 Distillation。
用於構建 LLM 應用的開源框架,提供鏈式調用、記憶、工具等功能。
參數量達數十億至數萬億的語言模型,如 GPT-4、Claude、LLaMA、Gemini。
對每一層的激活進行歸一化的技術,穩定訓練過程。
控制每次參數更新幅度的超參數。過大導致不收斂,過小導致訓練緩慢。
一種高效微調方法,通過添加低秩矩陣來適應新任務,大幅減少可訓練參數。
衡量模型預測與真實值之間差距的函數,訓練目標是最小化損失。
Anthropic 開發的協議,標準化 AI 模型與外部工具/數據源的交互方式。
將模型分為多個"專家"子網路,每次推理只激活部分專家,提高效率。
將 DevOps 實踐應用於機器學習的工程規範,涵蓋訓練、部署、監控全流程。
將注意力機制分為多個"頭"並行計算,捕獲不同類型的關係。
能處理多種類型數據(文本、圖像、音頻等)的模型,如 GPT-4V、Gemini。
研究計算機理解和生成人類語言的領域。
受生物神經系統啟發的機器學習模型,由互連的節點(神經元)組成。
開放的神經網路交換格式,支持跨框架模型部署。
模型過度學習訓練數據的特定模式,導致泛化能力下降。
模型中可學習的權重和偏置。GPT-4 估計有 1.8 萬億參數。
衡量語言模型預測能力的指標,越低表示模型越好。
在大規模無標註數據上訓練模型學習通用表示的過程。
給 LLM 的輸入文本,用於引導模型生成期望的輸出。
設計和優化提示以獲得更好 LLM 輸出的技術和實踐。
移除神經網路中不重要的權重或神經元以壓縮模型的技術。
結合量化和 LoRA 的微調方法,可在消費級 GPU 上微調大型模型。
將模型權重從高精度(如 FP32)轉換為低精度(如 INT8、INT4)的技術。
結合檢索系統和生成模型的架構,先檢索相關文檔再生成回答,減少幻覺。
結合推理和行動的 Agent 框架,讓 LLM 能思考並使用工具。
防止過擬合的技術,如 L1/L2 正則化、Dropout 等。
通過獎勵信號學習最優行為策略的機器學習範式。
使用人類反饋訓練獎勵模型,再用強化學習對齊 LLM 的技術。
能處理序列數據的神經網路,通過隱藏狀態傳遞信息。已被 Transformer 取代。
旋轉位置編碼,一種高效的位置編碼方法,被 LLaMA 等模型採用。
描述模型性能如何隨參數量、數據量、計算量增長的經驗規律。
序列中每個元素都與所有其他元素計算注意力的機制。
基於語義相似度而非關鍵詞匹配的搜索技術,通常使用嵌入向量。
使用標註數據對預訓練模型進行監督學習的過程。
將向量轉換為概率分佈的函數,常用於分類任務的輸出層。
使用小模型預測,大模型驗證的推理加速技術。
控制 LLM 輸出隨機性的參數。高溫度更隨機,低溫度更確定。
多維數組,深度學習中數據和參數的基本表示形式。
NVIDIA 的深度學習推理優化器,可大幅加速 GPU 推理。
LLM 處理文本的基本單位,可以是單詞、子詞或字符。
將文本轉換為 token 序列的工具。
控制 LLM 生成多樣性的採樣策略。Top-K 限制候選數,Top-P(Nucleus)限制累積概率。
將在一個任務上學到的知識應用到相關任務的技術。
基於自注意力機制的神經網路架構,是現代 LLM 的基礎。由 "Attention Is All You Need" 論文提出。
模型未能充分學習數據模式,導致訓練和測試表現都差。
一種生成模型,學習數據的潛在表示並可生成新樣本。
專門存儲和檢索高維向量的數據庫,如 Pinecone、Milvus、Chroma。
高效的 LLM 推理引擎,使用 PagedAttention 技術優化記憶體管理。
神經網路中連接神經元的可學習參數。
將詞彙映射到連續向量空間的技術,如 Word2Vec、GloVe。
無需任何示例,模型直接執行新任務的能力。
📝 貢獻:歡迎透過 PR 補充更多術語!