Apple ha tenuto segreta la sua ricerca di guida autonoma per anni, ma ora la società ha pubblicizzato alcune delle sue tecniche di software di guida autonoma che migliorano il rilevamento degli ostacoli.
Pubblicato il 17 novembre sul repository scientifico prestampato arXiv dagli esperti di intelligenza artificiale e machine learning di Apple Yin Zhou e Oncel Tuzel, il documento delinea il rilevamento di piccoli ostacoli utilizzando il metodo di rilevamento Light Detection and Ranging (LiDAR).
Invece di fare affidamento su rappresentazioni di caratteristiche realizzate a mano (ad esempio, una proiezione a volo d'uccello), gli scienziati di Apple propongono una nuova architettura profonda addestrabile end-to-end per il rilevamento 3D basato su nuvole di punti. Chiamato VoxelNet, può operare direttamente su punti 3D sparsi e acquisire informazioni sulla forma 3D in modo efficace.
Le prime sperimentazioni con la tecnologia VoxelNet hanno dimostrato che supera di gran lunga i metodi di rilevamento 3D basati su LiDAR all'avanguardia. Su compiti più impegnativi, come il rilevamento 3D di pedoni e ciclisti, l'approccio VoxelNet ha dimostrato risultati incoraggianti, dimostrando che fornisce una migliore rappresentazione e rilevazione 3D.
Le caselle 3D verdi indicano i potenziali ostacoli rilevati utilizzando LiDAR
La capacità di rilevare con precisione oggetti nelle nuvole di punti 3D è cruciale per evitare gli ostacoli.
Dal documento:
VoxelNet divide una nuvola di punti in voxel 3D equidistanti e trasforma un gruppo di punti all'interno di ciascun voxel in una rappresentazione di funzionalità unificata attraverso il livello di VFE (voxel feature encoding) appena introdotto. In questo modo, la nuvola di punti viene codificata come rappresentazione volumetrica descrittiva, che viene quindi collegata a un RPN per generare rilevamenti.
Esperimenti sul benchmark di rilevamento auto KITTI dimostrano che VoxelNet supera di gran lunga i metodi di rilevamento 3D basati su LiDAR all'avanguardia. Inoltre, la nostra rete apprende un'efficace rappresentazione discriminatoria di oggetti con varie geometrie, portando a risultati incoraggianti nel rilevamento 3D di pedoni e ciclisti, basato solo su LiDAR.
L'architettura VoxelNet, illustrata nella parte superiore del post, presenta una rete di apprendimento che prende come input una nuvola di punti grezza, quindi suddivide lo spazio in voxel e trasforma i punti all'interno di ogni voxel in una rappresentazione vettoriale che caratterizza le informazioni sulla forma.
È bello che Apple stia iniziando ad aprirsi quando si tratta della sua ricerca di guida autonoma, che si dice sia orientata al mercato del trasporto passeggeri e al servizio navetta del campus interno dell'azienda.
Apparentemente il produttore di iPhone ha fatto un grande investimento nella guida autonoma e ha "un grande progetto in corso" in quello spazio, secondo il CEO Tim Cook.