Al fine di favorire l'immersività percettiva la scena viene proiettata in scala 1:1 rispetto allo spazio rappresentato da Giotto, dunque uno schermo di m (5 x 4). Quando il visitatore cammina nello spazio fisico antistante la proiezione (uno spazio anch'esso di circa 5 x 5m), la sua posizione viene agganciata e tracciata - in coordinate xy sul piano orizzontale - istante per istante da un sistema di motion capture, un sistema, cioè, in grado di riconoscere il visitatore e seguirlo nei suoi spostamenti.
Questa posizione viene inviata al motore grafico che calcola e restituisce in tempo reale il punto di vista della scena. In tal modo l'utente, attraverso i movimenti del suo corpo assume di fatto la funzione di un tracciatore e ha la sensazione di entrare, camminare nella scena, inoltrasi tra i personaggi, posizionarsi alle spalle di Francesco o del Papa, partecipare in prima persona a quel fondamentale frammento di storia.
L'applicazione è monoutente, cioè consente l'interazione di una sola persona alla volta, ma il pubblico (fino a quindici persone circa) potrà assistere e alternarsi nell'interazione. Il sistema di motion capture utilizzato è estremamente agile ed "economico", non richiede infatti all'utente di indossare marcatori o sensori ma si basa sul semplice uso di una videocamera ad infrarossi che, affissa al soffitto, inquadra lo spazio di interazione, riconosce l'utente che per primo vi entra e continua a tracciarlo fintanto che egli rimane all'interno dell'area sensibile. L'interazione prosegue fin quando l'utente non abbandonerà l'area interattiva o non darà il cambio ad un nuovo utente. L'utente "attivo", vale a dire agganciato dal sistema, viene illuminato e "marcato" dall'alto da una luce ad occhio di bue che lo segue, visibile da tutto il pubblico presente in sala, rendendolo ancor più attore partecipe della scena.