Skip to content

Meta AI lansează Segment Anything Model 2 (SAM 2): Segmentare Promptabilă pentru Imagini și Video

Meta AI lansează Segment Anything Model 2 (SAM 2): Segmentare Promptabilă pentru Imagini și Video

Creează chatbotul personalizat cu BotGPT!

Poți construi chatbotul pentru suport clienți în câteva minute.

Crează AI Chatbot

Meta AI a dezvăluit Segment Anything Model 2 (SAM 2), un model fundamental revoluționar, promptabil, pentru segmentarea imaginilor și videoclipurilor. Bazându-se pe succesul versiunii originale SAM, SAM 2 oferă capabilități îmbunătățite de segmentare în timp real, susținând diverse aplicații fără a necesita adaptări personalizate. Odată cu lansarea, Meta AI introduce și setul de date SA-V, care cuprinde aproximativ 51.000 de videoclipuri din lumea reală și peste 600.000 de măști. SAM 2 este pregătit să stimuleze inovația în diferite domenii, permițând segmentarea precisă și eficientă a obiectelor în domenii vizuale neexplorate anterior.


Puncte Cheie

  • Model Unificat: SAM 2 suportă segmentarea obiectelor în timp real, promptabilă, atât în imagini, cât și în videoclipuri, atingând performanțe de vârf.
  • Open Source: Meta lansează SAM 2 sub licența Apache 2.0, împărtășind codul sursă și greutățile modelului.
  • Setul de Date SA-V: Include aproximativ 51.000 de videoclipuri din lumea reală și peste 600.000 de măști, disponibile sub licența CC BY 4.0.
  • Aplicații Versatile: SAM 2 segmentează obiecte în domenii vizuale neexplorate anterior fără adaptare personalizată, deschizând numeroase cazuri de utilizare.

Introducere

Meta este mândră să prezinte Segment Anything Model 2 (SAM 2), următoarea generație în segmentarea obiectelor, atât pentru imagini, cât și pentru videoclipuri. SAM 2 este disponibil sub licența Apache 2.0, permițând utilizarea și experimentarea pe scară largă. În plus, Meta pune la dispoziție setul de date SA-V sub licența CC BY 4.0, împreună cu o demonstrație web care evidențiază capacitățile SAM 2.

Caracteristici Cheie

Videoclip de Demonstrație

Urmărește videoclipul pentru a vedea SAM și SAM 2 în acțiune:

Video 1: SAM vs SAM 2 Model și abordare (sursa: https://ai.meta.com/blog/segment-anything-2/).

Arhitectura SAM 2 extinde capabilitățile SAM de la imagini la videoclipuri. Modelul poate fi promptat folosind clicuri, casete de delimitare sau măști pentru a defini obiectele din cadre. Un decodor de măști ușor procesează aceste prompturi și îmbinările imaginilor pentru a genera măști de segmentare. În videoclipuri, SAM 2 propagă aceste măști de-a lungul cadrelor, rafinând predicțiile în mod iterativ.

Este introdus un mecanism de memorie, constând dintr-un encoder de memorie, un banc de memorie și un modul de atenție a memoriei, pentru a prezice precis măști pe toate cadrele. Pentru videoclipuri, componentele de memorie stochează informații despre obiecte și interacțiuni, permițând SAM 2 să genereze predicții consistente pentru măscuțe. Encoder-ul de memorie actualizează bancul de memorie cu predicții bazate pe cadre, pe care modulul de atenție a memoriei le folosește pentru a condiționa îmbinările pentru decodorul de măști.

Arhitectura de streaming procesează cadrele video secvențial, stocând informații despre obiectele segmentate în memorie, permițând procesarea în timp real a videoclipurilor lungi. SAM 2 gestionează ambiguitatea generând multiple predicții de măști, rafinându-le prin prompturi suplimentare și selectând măștile cele mai sigure pentru propagarea ulterioară.

Puncte Cheie

Segmentarea imaginilor este o sarcină fundamentală în viziunea computerizată. Anul trecut, Meta AI a introdus Segment Anything Model (SAM), primul model de bază pentru această sarcină. Acum, Meta AI a lansat SAM 2, un model de bază promptabil care extinde capabilitățile de segmentare atât la imagini, cât și la videoclipuri, oferind performanțe și versatilitate îmbunătățite.

Segmentare promptabilă pentru imagini și videoclipuri

Figura 1: Segmentare promptabilă pentru imagini și videoclipuri

Explorare Detaliată a SAM 2

Introducere

Acest articol acoperă următoarele subiecte:

  • Contribuțiile principale ale proiectului SAM 2.
  • Limitările SAM și îmbunătățirile aduse de SAM 2.
  • Arhitectura SAM 2 și noile componente.
  • Dataset-ul SA-V.
  • Rezultate de benchmark.
  • Rularea inferenței folosind greutățile SAM 2.

Cuprins

  1. Contribuțiile Principale ale Proiectului SAM 2
  2. Limitările SAM și Soluțiile Oferite de SAM 2
  3. Arhitectura SAM 2
  4. Engine-ul de Date
  5. Dataset-ul SA-V
  6. Comparație cu Modelele SOTA VOS
  7. Cazuri de Utilizare în Lumea Reală
  8. Diferitele Arhitecturi SAM 2
  9. Rularea Inferenței pe Videoclipuri
  10. Rezumat și Concluzii
  11. Referințe

Contribuțiile Principale ale Proiectului SAM 2

Proiectul SAM 2 aduce trei contribuții principale:

  1. Modelul Segment Anything 2.
  2. Un nou motor de date pentru pregătirea și evaluarea dataset-urilor.
  3. Dataset-ul SA-V (Segment Anything – Video).

Modelul SAM 2, Engine-ul de Date și Dataset-ul

Modelul SAM 2, Engine-ul de Date și Dataset-ul

Limitările SAM și Soluțiile Oferite de SAM 2

SAM (Segment Anything) a fost inițial conceput pentru segmentarea promptabilă a imaginilor. Totuși, a întâmpinat dificultăți în procesarea datelor temporale, cum ar fi videoclipurile, necesitând adesea modele suplimentare de deep learning pentru detectarea obiectelor în fiecare cadru. Aceasta a dus la o latență semnificativă în aplicațiile în timp real.

SAM 2 rezolvă aceste probleme prin extinderea sarcinii de Segmentare Vizuală Promptabilă (PVS) la videoclipuri. Acesta permite utilizarea prompturilor prin puncte, casete sau măști pe orice cadru, prezicând obiectele din cadrele ulterioare cu un nou regim de antrenare.

Arhitectura SAM 2

Modelul SAM 2 generalizează arhitectura SAM la domeniul video. Acesta suportă prompturi în trei formate: puncte, casete de delimitare și măști. Noua arhitectură introduce mai multe componente:

  • Un nou encoder de imagini.
  • Atenție la memorie pentru date spațio-temporale.
  • Encoder de prompturi pentru gestionarea prompturilor.
  • O nouă metodă de decodare a măștilor.
  • Un encoder de memorie.
  • Un banc de memorie.

Arhitectura SAM 2

Arhitectura SAM 2

Encoder de Imagini

Encoderul de imagini este un autoencoder mascat ierarhic (Hiera), utilizând caracteristici multi-scalare în timpul decodării și codificând cadrele video secvențial.

Atenție la Memorie

Atenția la memorie funcționează ca un mecanism de cross-attention, condiționând caracteristicile cadrelor curente pe baza caracteristicilor, predicțiilor și prompturilor din cadrele anterioare. Acest proces implică stivuirea blocurilor de transformare.

Encoder de Prompturi

Encoderul de prompturi gestionează diferite tipuri de prompturi, similar cu SAM. Prompturile sparse (puncte și casete de delimitare) sunt reprezentate prin codificări poziționale și embeddings învățate, în timp ce prompturile dense (măști) sunt gestionate prin straturi convoluționale.

Decodor de Măști

Decodorul de măști procesează prompturile codificate și embeddings-urile cadrelor din modulul de atenție la memorie, generând măști pentru cadrul curent. O conexiune de tip skip din encoderul de imagini incorporează informații de înaltă rezoluție.

Decodorul de Măști SAM 2

Decodorul de Măști SAM 2

Encoder de Memorie și Banc de Memorie

Encoderul de memorie stochează predicții și embeddings pentru utilizări viitoare, în timp ce bancul de memorie păstrează predicțiile și istoricul prompturilor din trecut, menținând informațiile despre obiectele țintă pe parcursul videoclipului.

Motorul de Date

Crearea unui model robust precum SAM 2 necesită un set de date de înaltă calitate și divers. Motorul de date operează în trei faze, utilizând tehnici model-in-the-loop pentru a îmbunătăți eficiența adnotării.

Faza 1

SAM asistă adnotatorii umani în generarea măștilor, care sunt apoi rafinate manual.

Faza 2

SAM 1 și SAM 2, împreună cu adnotatorii umani, generează masklets spațio-temporale, reducând semnificativ timpul de adnotare.

Faza 3

SAM 2 operează independent, necesită intervenție umană minimă pentru rafinarea extremă a măștilor, generând 197K masklets.

Setul de Date SA-V

Setul de date SA-V include:

  • 50.9K videoclipuri
  • 642.6K masklets

Acest set de date este semnificativ mai mare decât seturile de date existente pentru VOS, prezentând scenarii diverse din 47 de țări.

Setul de Date SA-V SAM 2

Setul de Date SA-V SAM 2

Compararea cu Modelele VOS SOTA

Deși SAM 2 are ca obiectiv principal PVS, acesta depășește alte modele semi-supervizate SOTA pentru VOS în ceea ce privește scorurile IoU și F1, menținând în același timp performanța în timp real.

Cazuri de Utilizare în Lumea Reală

Urmărirea Obiectelor

SAM 2 îmbunătățește urmărirea obiectelor pentru vehicule autonome, robotică și crearea efectelor speciale.

Segmentarea Celulelor în Videoclipuri Microscópice

SAM 2 ajută cercetarea științifică prin segmentarea și urmărirea celulelor în videoclipuri microscopice.

Diferite Arhitecturi SAM 2

SAM 2 este disponibil în patru versiuni: Tiny, Small, Base Plus și Large. Fiecare variază în funcție de parametri și performanță.

ModelDimensiune (M)Viteză (FPS)Test SA-V (J&F)MOSE Val (J&F)LVOS V2 (J&F)
sam2_hiera_tiny38.947.275.070.975.3
sam2_hiera_small4643.3 (53.0)74.971.576.4
sam2_hiera_base+80.834.8 (43.8)74.772.875.8
sam2_hiera_large224.424.2 (30.2)76.074.679.8

Rularea Inferenței pe Videoclipuri

Rularea inferenței folosind greutățile SAM 2 implică configurarea modelului și executarea acestuia pe cadrele video, utilizând mecanismele de atenție a memoriei și codificarea prompturilor.

Rezumat și Concluzie

SAM 2 avansează semnificativ segmentarea obiectelor, extinzând capacitățile la videoclipuri cu performanță în timp real. Lansarea sa open-source și setul de date extins încurajează inovația comunității în segmentarea video și imagistică.

Referințe

Consultați documentația oficială Meta pentru informații detaliate și resurse suplimentare.

Evoluția Segmentării Obiectelor

Segmentarea obiectelor identifică pixeli corespunzători obiectelor dintr-o imagine sau cadru video. SAM 2 extinde munca de bază a modelului original SAM, permițând segmentarea interactivă în timp real în conținut vizual divers. Modelul excelează în generalizarea zero-shot, segmentând obiecte pe care nu le-a întâlnit anterior.

Impactul în Lumea Reală

De la lansarea sa, SAM a fost integrat în numeroase aplicații, de la îmbunătățirea funcțiilor Instagram la sprijinul cercetării științifice. SAM 2 promite progrese suplimentare, permițând adnotări mai rapide pentru sistemele de viziune computerizată, creând noi efecte video și sprijinind domenii diverse, precum științele marine, analiza imaginilor prin satelit și diagnosticul medical.

Progrese Tehnice

SAM 2 se bazează pe succesul SAM prin introducerea mai multor inovații cheie:

  • Arhitectură Unificată: SAM 2 funcționează fără probleme atât pe date de imagine, cât și pe video.
  • Segmentare Promptabilă: Modelul suportă segmentarea interactivă în timp real cu rafinament iterativ.
  • Mecanism de Memorie: Segmentarea video îmbunătățită prin componente de memorie care stochează informații despre obiecte pe cadre.
  • Gestionarea Occluziilor: Un cap de occluzie prezice vizibilitatea obiectelor, îmbunătățind precizia segmentării în scenarii dinamice.

SA-V Dataset

Setul de date SA-V extinde semnificativ datele video annotate disponibile, oferind:

  • Peste 600,000 de adnotări de masklet în aproximativ 51,000 de videoclipuri.
  • Scenarii diverse din lume, din 47 de țări.
  • Acoperire cuprinzătoare a obiectelor întregi, părților și instanțelor complexe.

Rezultate și Performanță

SAM 2 demonstrează îmbunătățiri semnificative:

  • Depășește modelele anterioare în segmentarea interactivă a videoclipurilor cu mai puține interacțiuni.
  • Atinge o precizie superioară în segmentarea imaginilor, fiind de șase ori mai rapid decât SAM.
  • Excelează în benchmark-urile stabilite pentru segmentarea video, procesând la aproximativ 44 de cadre pe secundă.

Direcții Viitoare

Meta își imaginează SAM 2 ca un component într-un sistem AI mai larg, îmbunătățind aplicațiile în realitatea augmentată, vehiculele autonome și cercetarea științifică. Capacitățile modelului ar putea revoluționa interacțiunea în timp real cu obiectele, editarea detaliată a videoclipurilor și adnotarea robustă a datelor.

Concluzie

Meta invită comunitatea AI să exploreze SAM 2, valorificând lansarea sa open-source și setul extins de date pentru a împinge limitele segmentării video și imagistice. Prin promovarea științei deschise, Meta își propune să conducă inovația, deblocând noi posibilități pentru tehnologie și societate.

Pentru mai multe detalii și pentru a accesa resursele, vizitați pagina oficială de lansare a Meta.


Bot Personalizat Gratuit ChatGPT cu BotGPT

Pentru a valorifica pe deplin potențialul LLM-urilor pentru nevoile dumneavoastră specifice, luați în considerare crearea unui chatbot personalizat adaptat la datele și cerințele dumneavoastră. Explorați BotGPT pentru a descoperi cum puteți profita de tehnologia avansată AI pentru a construi soluții personalizate și a vă îmbunătăți proiectele de afaceri sau personale. Prin îmbrățișarea capabilităților BotGPT, puteți rămâne cu un pas înainte în peisajul în evoluție al AI-ului și debloca noi oportunități de inovație și interacțiune.

Descoperiți puterea asistentului nostru virtual versatil, alimentat de tehnologia de vârf GPT, adaptat pentru a satisface nevoile dumneavoastră specifice.


Funcții

  1. Îmbunătățiți Productivitatea: Transformați fluxul de lucru cu eficiența BotGPT. Începeți

  2. Integrare Seamless: Integrați cu ușurință BotGPT în aplicațiile dumneavoastră. Aflați Mai Multe

  3. Optimizați Crearea de Conținut: Creșteți procesul de creare și editare a conținutului cu BotGPT. Încercați Acum

  4. Asistență Virtuală 24/7: Accesați BotGPT oricând, oriunde pentru suport instantaneu. Explorați Aici

  5. Soluții Personalizabile: Adaptați BotGPT pentru a se potrivi perfect cerințelor afacerii dumneavoastră. Personalizați Acum

  6. Informații Bazate pe AI: Descoperiți informații valoroase cu capabilitățile avansate ale BotGPT. Descoperiți Mai Multe

  7. Deblocați Funcții Premium: Faceți upgrade la BotGPT pentru funcții exclusive. Faceți Upgrade Astăzi


Despre BotGPT

BotGPT este un chatbot puternic alimentat de tehnologia avansată GPT, conceput pentru integrare seamless pe diverse platforme. Îmbunătățiți productivitatea și creativitatea cu asistența virtuală inteligentă oferită de BotGPT.


Conectați-vă cu noi la BotGPT și descoperiți viitorul asistenței virtuale.