Modelele de Limbaj Fundamentale Apple Intelligence
Apple a dezvoltat modele de limbaj fundamentale pentru a îmbunătăți Apple Intelligence pe iOS, iPadOS și macOS. Aceste modele constau dintr-o versiune on-device cu 3 miliarde de parametri și o variantă mai puternică bazată pe server, ambele concepute pentru eficiență și versatilitate optimă. Procesul de antrenament implică pre-antrenament de bază pe 6.3 trilioane de token-uri, urmat de continuarea pre-antrenamentului cu lungimi de secvență mai mari și extinderea contextului. Pentru post-antrenament, se utilizează fine-tuning supervizat și învățare prin întărire din feedback-ul uman (RLHF), folosind tehnici avansate precum comitetul de predare iterativ (iTeC) și descendența prin oglindire cu estimarea leave-one-out (MDLOO). Modelele sunt specializate suplimentar folosind adaptoare LoRA, făcându-le bine adaptate pentru aplicații on-device. Rezultatele benchmark indică faptul că modelul AFM-on-device depășește modelele open-source mai mari, în timp ce modelul AFM-server concurează cu GPT-3.5. Ambele modele excelează în evaluările de siguranță, subliniind angajamentul Apple față de practici responsabile în domeniul AI.