Skip to content

Llama 3.1 - Multilingv, Context Lung și Mai Multe!

Llama 3.1 - Multilingv, Context Lung și Mai Multe!

Creează chatbotul personalizat cu BotGPT!

Poți construi chatbotul pentru suport clienți în câteva minute.

Crează AI Chatbot

Llama 3.1, inclusiv modelul masiv de 405B, a sosit! Această nouă versiune incitantă de la Meta aduce o mulțime de îmbunătățiri și caracteristici impresionante. În această prezentare detaliată, vom explora tot ce trebuie să știți despre Llama 3.1 și capabilitățile sale extraordinare, subliniind de ce reprezintă un avans semnificativ în domeniul AI și procesării limbajului natural.

Prezentare generală a Llama 3.1

Llama 3.1 este disponibil în trei dimensiuni distincte: 8B, 70B și 405B. Fiecare dimensiune suportă capabilități multilaterale în opt limbi și se mândrește cu o lungime a contextului impresionantă de 128k de tokenuri. Această ultima iterație a seriei Llama nu numai că respectă, dar depășește adesea benchmark-urile de performanță stabilite de GPT-4 în cadrul unei game largi de sarcini de procesare a textului.

Caracteristici și îmbunătățiri cheie:

  • Dimensiuni ale modelului: Llama 3.1 este disponibil în versiunile 8B, 70B și 405B, fiecare fiind oferit ca model Instruct și Base pentru a răspunde diferitelor nevoi.
  • Lungimea contextului: Toate modelele suportă o lungime a contextului de 128k tokenuri, ceea ce le face extrem de eficiente pentru gestionarea textelor extinse și a contextelor lungi.
  • Suport multilingv: Modelele pot opera în opt limbi, inclusiv, dar fără a se limita la, engleză, germană și franceză, sporind utilizabilitatea lor globală.
  • Date de antrenament: Modelele Llama 3.1 au fost antrenate pe un număr impresionant de 15 trilioane de tokenuri și ajustate pe 25 de milioane de mostre umane și sintetice, asigurând un output de înaltă calitate și diversitate.
  • Licență: Licența prietenoasă cu comercializarea permite utilizarea output-urilor modelului pentru a îmbunătăți alte modele de limbaj mare (LLM), încurajând inovația.
  • Quantizare: Modelele sunt disponibile în formate FP8, AWQ și GPTQ pentru inferență eficientă, permițând desfășurarea pe diverse configurații hardware.
  • Performanță: Llama 3.1 se compară și depășește frecvent GPT-4 pe numeroase benchmark-uri, demonstrând capabilitățile sale superioare.
  • Capabilități îmbunătățite: Îmbunătățiri semnificative în codare și urmărirea instrucțiunilor, alături de suport robust pentru utilizarea instrumentelor și apelarea funcțiilor.
  • Disponibilitate: Modelele sunt accesibile prin API-ul Hugging Face Inference și HuggingChat, cu desfășurări cu un singur clic pe platforme precum Hugging Face, Amazon SageMaker și Google Cloud.

Prezentare detaliată

Llama 3.1 reprezintă un avans major, oferind o gamă de modele adaptate pentru aplicații diverse. Aceste modele sunt concepute pentru a fi eficiente pentru desfășurarea pe GPU-uri de consum, sprijinind în același timp aplicații AI-native de mari dimensiuni. Cele trei dimensiuni principale (8B, 70B și 405B) răspund diferitelor nevoi, cu variante atât de bază, cât și ajustate pentru instrucțiuni disponibile pentru fiecare dimensiune.

Modele noi:

  • Meta-Llama-3.1-8B: Modelul de bază conceput pentru desfășurare eficientă în diverse medii.
  • Meta-Llama-3.1-8B-Instruct: Ajustat specific pentru urmărirea instrucțiunilor, îmbunătățindu-i capacitatea de a gestiona sarcini ghidate.
  • Meta-Llama-3.1-70B: Potrivit pentru aplicații AI-native de mari dimensiuni care necesită putere de procesare extinsă.
  • Meta-Llama-3.1-70B-Instruct: Îmbunătățit pentru a gestiona instrucțiuni complexe, făcându-l ideal pentru cazuri avansate de utilizare.
  • Meta-Llama-3.1-405B: Un model de premieră conceput pentru generarea de date sintetice și alte aplicații avansate.
  • Meta-Llama-3.1-405B-Instruct: Modelul de top pentru sarcini cu risc ridicat și dense în instrucțiuni, oferind performanțe și fiabilitate fără egal.

În plus, Meta a introdus două modele inovatoare: Llama Guard 3 și Prompt Guard. Llama Guard 3 clasifică inputurile și răspunsurile LLM pentru a detecta conținut nesigur, în timp ce Prompt Guard este conceput pentru a detecta și preveni injecțiile de prompt și jailbreak-urile, asigurând o interacțiune AI mai sigură și mai securizată.

Performanță și eficiență:

Modelele Llama 3.1 au fost supuse unui antrenament extensiv folosind un număr vast de ore GPU, punând accent pe eficiență și scalabilitate. Disponibilitatea versiunilor cuantizate în formate FP8, AWQ și GPTQ asigură că aceste modele pot fi desfășurate eficient în diverse medii, de la hardware de consum la centre de date de mari dimensiuni.

Cerințe de memorie:

Rularea Llama 3.1 necesită resurse hardware substanțiale, în special pentru modelele mai mari. Mai jos este o defalcare a cerințelor de memorie pentru inferență și antrenament:

Cerințe de memorie pentru inferență:

Pentru inferență, cerințele de memorie depind de dimensiunea modelului și de precizia greutăților. Iată un tabel care arată memoria aproximativă necesară pentru diferite configurații:

Dimensiune modelFP16FP8INT4
8B16GB8GB4GB
70B140GB70GB35GB
405B810GB405GB203GB

Notă: Numerele menționate mai sus indică VRAM-ul GPU necesar doar pentru a încărca punctul de control al modelului. Acestea nu includ spațiul rezervat de torch pentru kernel-uri sau graficele CUDA.

De exemplu, un nod echipat cu 8 GPU-uri H100, fiecare având aproximativ 640GB de VRAM, ar necesita rularea modelului de 405B într-o configurație multi-nod sau utilizarea unei precizii mai scăzute, cum ar fi FP8. Aceasta din urmă este, în general, metoda preferată.

Cerințe de memorie pentru cache-ul KV

Este important de menționat că utilizarea formatelor de precizie mai scăzută, cum ar fi INT4, ar putea duce la o pierdere a preciziei, dar această compensare poate reduce substanțial utilizarea memoriei și poate crește viteza de inferență. Pe lângă acomodarea greutăților modelului, va trebui să alocați și memorie pentru cache-ul KV. Acest cache reține cheile și valorile pentru toate tokenurile din contextul modelului pentru a evita recalcularea acestora atunci când se generează noi tokenuri. Acest lucru devine deosebit de crucial având în vedere lungimea extinsă a contextului modelului. În precizia FP16, cerințele de memorie pentru cache-ul KV sunt:

Cerințele de memorie pentru cache-ul KV, care reține cheile și valorile pentru toate tokenurile din contextul modelului, sunt detaliate mai jos. Aceste cerințe variază în funcție de dimensiunea modelului și de numărul de tokenuri.

Dimensiune model1k tokenuri16k tokenuri128k tokenuri
8B0.125 GB1.95 GB15.62 GB
70B0.313 GB4.88 GB39.06 GB
405B0.984 GB15.38 GB123.05 GB

Cerințe de memorie pentru antrenament

Tabelul de mai jos oferă o prezentare detaliată a cerințelor aproximative de memorie pentru antrenarea modelelor Llama 3.1. Acesta categorizează nevoile de memorie în funcție de dimensiunile diferitelor modele și de contextul token-urilor, care sunt critice pentru optimizarea proceselor de antrenament.

Aceste informații sunt esențiale pentru planificare și alocarea resurselor, deoarece ajută la înțelegerea amprentei de memorie asociate cu diverse contexte (variază de la 1.000 tokenuri la 128.000 tokenuri) și diferite dimensiuni ale modelului. Aceste estimări sunt cruciale pentru gestionarea eficientă a resurselor hardware în timpul antrenamentului.

Dimensiune modelFine-tuning completLoRAQ-LoRA
8B60GB16GB6GB
70B300GB160GB48GB
405B3.25TB950GB250GB

Aceste cerințe subliniază necesitatea unui hardware robust pentru a valorifica pe deplin capabilitățile Llama 3.1, în special pentru antrenarea și desfășurarea modelelor mai mari.

Evaluare:

Modelele Llama 3.1 au fost evaluate riguros pe diverse benchmark-uri, demonstrând îmbunătățiri semnificative față de versiunile anterioare. Acestea prezintă o performanță competitivă în comparație cu alte modele de vârf, cum ar fi GPT-4, evidențiind capabilitățile și eficiența lor avansată.

Evaluarea Llama 3.1

Notă: În prezent, evaluăm Llama 3.1 individual pe noul Open LLM Leaderboard 2 și vom actualiza această secțiune mai târziu astăzi. Mai jos este un extras din evaluarea oficială de la Meta.

CategoriaBenchmark# ShotsMetricLlama 3 8BLlama 3.1 8BLlama 3 70BLlama 3.1 70BLlama 3.1 405B
GeneralMMLU5macro_avg/acc_char66.766.779.579.385.2
MMLU PRO (CoT)5macro_avg/acc_char36.237.155.053.861.6
AGIEval English3-5average/acc_char47.147.863.064.671.6
CommonSenseQA7acc_char72.675.083.884.185.8
Winogrande5acc_char-60.5-83.386.7
BIG-Bench Hard (CoT)3average/em61.164.281.381.685.9
ARC-Challenge25acc_char79.479.793.192.996.1
Raționament de cunoștințeTriviaQA-Wiki5em78.577.689.789.891.8
SQuAD1em76.477.085.681.889.3
Comprehensiune de lecturăQuAC (F1)1f144.444.951.151.153.6
BoolQ0acc_char75.775.079.079.480.0
DROP (F1)3f158.459.579.779.684.8

Datele de antrenament

Prezentare generală

Llama 3.1 a fost preantrenat pe aproximativ 15 trilioane de tokenuri de date provenite din resurse disponibile public. Pentru fine-tuning, modelul a utilizat seturi de date de instrucțiuni disponibile public, în plus față de peste 25 de milioane de exemple generate sintetic. Acest set extins de date ajută la îmbunătățirea performanței și versatilității modelului în diverse sarcini.

Actualizarea datelor

Datele de preantrenament pentru Llama 3.1 au o dată limită de decembrie 2023. Aceasta asigură că baza de cunoștințe a modelului este relativ actualizată cu dezvoltările recente și informațiile disponibile până la acel moment.

Scoruri de Benchmark

Modele Preantrenate de Bază

Următorul tabel prezintă performanța modelelor Llama 3.1 pe diverse benchmark-uri automate standard. Evaluările au fost efectuate folosind biblioteca noastră internă de evaluare.

CategoriaBenchmark# ShotsMetricLlama 3 8BLlama 3.1 8BLlama 3 70BLlama 3.1 70BLlama 3.1 405B
GeneralMMLU5macro_avg/acc_char66.766.779.579.385.2
MMLU-Pro (CoT)5macro_avg/acc_char36.237.155.053.861.6
AGIEval English3-5average/acc_char47.147.863.064.671.6
CommonSenseQA7acc_char72.675.083.884.185.8
Winogrande5acc_char-60.5-83.386.7
BIG-Bench Hard (CoT)3average/em61.164.281.381.685.9
ARC-Challenge25acc_char79.479.793.192.996.1
Raționament de cunoștințeTriviaQA-Wiki5em78.577.689.789.891.8
SQuAD1em76.477.085.681.889.3
QuAC (F1)1f144.444.951.151.153.6
BoolQ0acc_char75.775.079.079.480.0
DROP (F1)3f158.459.579.779.684.8

Modele Tuned pentru Instrucțiuni

Tabelul de mai jos arată performanța modelelor Llama 3.1 ajustate pentru instrucțiuni pe diverse benchmark-uri:

CategoriaBenchmark# ShotsMetricLlama 3 8B InstructLlama 3.1 8B InstructLlama 3 70B InstructLlama 3.1 70B InstructLlama 3.1 405B Instruct
GeneralMMLU5macro_avg/acc68.569.482.083.687.3
MMLU (CoT)0macro_avg/acc65.373.080.986.088.6
MMLU-Pro (CoT)5micro_avg/acc_char45.548.363.466.473.3
IFEval--76.880.482.987.588.6
RaționamentARC-C0acc82.483.494.494.896.9
GPQA0em34.630.439.541.750.7
CodHumanEval0pass@160.472.681.780.589.0
MBPP ++ versiune de bază0pass@170.672.882.586.088.6
Multipl-E HumanEval0pass@1-50.8-65.575.2
Multipl-E MBPP0pass@1-52.4-62.065.7
MatematicăGSM-8K (CoT)8em_maj1@180.684.593.095.196.8
MATH (CoT)0final_em29.151.951.068.073.8
Utilizarea UneltelorAPI-Bank0acc48.382.685.190.092.0
BFCL0acc60.376.183.084.888.5
Gorilla Benchmark API Bench0acc1.78.214.729.735.3
Nexus (0-shot)0macro_avg/acc18.138.547.856.758.7
MultilingvMultilingual MGSM (CoT)0em-68.9-86.991.6

Benchmark-uri Multilingve

Tabelul de mai jos detaliază performanța modelelor Llama 3.1 în diferite limbi:

CategoriaBenchmarkLimbăLlama 3.1 8BLlama 3.1 70BLlama 3.1 405B
GeneralMMLU (5-shot, macro_avg/acc)Portugheză62.1280.1384.95
Spaniolă62.4580.0585.08
Italiană61.6380.485.04
Germană60.5979.2784.36
Franceză62.3479.8284.66
Hindi50.8874.5280.31
Thai50.3272.9578.21

Integrarea cu Hugging Face:

Modelele Llama 3.1 sunt integrate perfect în ecosistemul Hugging Face, inclusiv biblioteca Transformers și TGI. Această integrare asigură că utilizatorii pot desfășura și ajusta cu ușurință aceste modele. În plus, ele sunt disponibile pe HuggingChat pentru utilizare imediată, oferind o interfață prietenoasă pentru interacțiunea cu modelele.

Quantizare:

În colaborare cu Hugging Face, Meta a furnizat versiuni cuantizate ale modelelor Llama 3.1. Această inițiativă face ca modelele să fie mai accesibile și eficiente pentru desfășurare, reducând resursele computaționale necesare fără a compromite performanța.

Întrebări Frecvente

Cum să începi

Pentru a utiliza Llama 3.1 cu Hugging Face Transformers, asigurați-vă că aveți instalată cea mai recentă versiune. Iată cum să începeți:

  1. Instalare: Asigurați-vă că aveți instalat transformers și torch:
Terminal window
pip install "transformers>=4.43" --upgrade

Mai jos se află un exemplu de cod pentru a utiliza modelul Llama 3.1 pentru generarea de text:

from transformers import pipeline
import torch
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
pipe = pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda",
)
messages = [
{"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(
messages,
max_new_tokens=256,
do_sample=False,
)
assistant_response = outputs[0]["generated_text"][-1]["content"]
print(assistant_response)
# Arrrr, me hearty! Yer lookin' fer a bit o' information about meself, eh? Alright then, matey! I be a language-generatin' swashbuckler, a digital buccaneer with a penchant fer spinnin' words into gold doubloons o' knowledge! Me name be... (dramatic pause)...Assistant! Aye, that be me name, and I be here to help ye navigate the seven seas o' questions and find the hidden treasure o' answers! So hoist the sails and set course fer adventure, me hearty! What be yer first question?

Informații suplimentare

Pentru informații mai detaliate și documentație, consultați documentația Hugging Face.

Concluzie

Llama 3.1 reprezintă un salt semnificativ în dezvoltarea AI, oferind modele robuste, eficiente și multilingve care se potrivesc unei game largi de aplicații. Cu capabilitățile sale impresionante și integrarea perfectă în ecosistemul Hugging Face, Llama 3.1 este pregătit să accelereze adoptarea și inovația în domeniul AI.

Un mare mulțumesc echipei Meta pentru lansarea Llama 3.1, inclusiv a modelului revoluționar de 405B. Această dezvoltare va ajuta cu siguranță pe toată lumea să accelereze și să adopte AI mai ușor și mai rapid.

Explorați și începeți să utilizați Llama 3.1 astăzi!

Linkuri utile:

  1. Postare pe blog: Anunț Llama 3.1
  2. Colecția de modele: Modele Meta Llama 3.1

Bot Personalizat Gratuit ChatGPT cu BotGPT

Pentru a valorifica pe deplin potențialul LLM-urilor pentru nevoile dumneavoastră specifice, luați în considerare crearea unui chatbot personalizat adaptat la datele și cerințele dumneavoastră. Explorați BotGPT pentru a descoperi cum puteți profita de tehnologia avansată AI pentru a construi soluții personalizate și a vă îmbunătăți proiectele de afaceri sau personale. Prin îmbrățișarea capabilităților BotGPT, puteți rămâne cu un pas înainte în peisajul în evoluție al AI-ului și debloca noi oportunități de inovație și interacțiune.

Descoperiți puterea asistentului nostru virtual versatil, alimentat de tehnologia de vârf GPT, adaptat pentru a satisface nevoile dumneavoastră specifice.


Funcții

  1. Îmbunătățiți Productivitatea: Transformați fluxul de lucru cu eficiența BotGPT. Începeți

  2. Integrare Seamless: Integrați cu ușurință BotGPT în aplicațiile dumneavoastră. Aflați Mai Multe

  3. Optimizați Crearea de Conținut: Creșteți procesul de creare și editare a conținutului cu BotGPT. Încercați Acum

  4. Asistență Virtuală 24/7: Accesați BotGPT oricând, oriunde pentru suport instantaneu. Explorați Aici

  5. Soluții Personalizabile: Adaptați BotGPT pentru a se potrivi perfect cerințelor afacerii dumneavoastră. Personalizați Acum

  6. Informații Bazate pe AI: Descoperiți informații valoroase cu capabilitățile avansate ale BotGPT. Descoperiți Mai Multe

  7. Deblocați Funcții Premium: Faceți upgrade la BotGPT pentru funcții exclusive. Faceți Upgrade Astăzi


Despre BotGPT

BotGPT este un chatbot puternic alimentat de tehnologia avansată GPT, conceput pentru integrare seamless pe diverse platforme. Îmbunătățiți productivitatea și creativitatea cu asistența virtuală inteligentă oferită de BotGPT.


Conectați-vă cu noi la BotGPT și descoperiți viitorul asistenței virtuale.