Ny DSP för vision dubblar prestanda

Cadence lanserar nu en ännu kraftfullare version av företagets DSP för AI-baserad vision. Tensilica Vision Q7 DSP är optimerad för AI-baserad igenkänning i mobiltelefoner, fordon och övervakningskameror.


Exempel på en mobiltelefonbaserad SLAM-tillämpning

Den nya DSP-enheten är baserad på företagets konfigurerbara Tensilica-arkitektur och ingår i Tensilica Vision-serien. Det nya IP-blocket klarar upp till 1,82 TOPS (tera operations per second), vilket är dubbelt så mycket som föregångaren.
Tensilica Vision Q7 är framför allt optimerad för en teknik som kallas SLAM (simultaneous localization and mapping), det innebär att en kamera konstruerar och kontinuerligt uppdaterar en karta över ett område. Det kan handla om att lägga in kända platser i en bild från en mobiltelefon eller om att bestämma positionen för en bil eller en drönare. Tekniken är extremt användbar, men kräver mycket höga beräkningsprestanda, samtidigt som energiförbrukningen måste vara låg.
Tensilica-arkitekturen är i grunden baserad på VLIW (very long instruction word) och SIMD (Single instruction, multiple data). Till det kommer optimerade instruktioner och en mängd hårdvarublock för att optimera för de krav som ställs i det speciella fallet. Optimerade Tensilica-DSPer finns idag för audio, vision och AI.
För att klara SLAM krävs massor av parallella MAC-operationer (multiplikationer och additioner) i olika precision. Vision Q7 DSP har därför 512 8-bits MAC-enheter och 128 16-bits MAC-enheter. Det gäller också att kunna hantera data och DMA-överföringar i mycket hög hastighet. Den nya enheten är ändå bakåtkompatibel med tidigare versioner.
Tensilica Vision Q7 DSP går också att implementera som multiprocessor. Flera DSP-enheter kan kommunicera över en AXI4-buss. De kan också kombineras med en DNA100-enhet, optimerad för AI, för att ytterligare öka prestanda.
Tensilica Vision Q7 DSP kan användas i allt från smarta mobiler och IoT-enheter till avancerade övervakningssystem, självkörande fordon och datacenter. Med olika enkel- eller multiprocessorimplementeringar går det att täcka prestandaområdet från ca 512 GMAC/s upp till tiotals eller hundratals TMAC/s.

Comments are closed.