Rozpoznání gest z hloubkových dat při pohledu shora
Sledování lidského těla a rozpoznání gest představuje základní kámen mnoha elektronických řešení, jako jsou dohledové systémy, bezpečnostní aplikace, zábavní průmysl nebo řešení typu interakce člověk-stroj. S příchodem hloubkových senzorů schopných rekonstrukce 3D scény se značně zvýšila přesnost systémů pro sledování lidského těla. Většina současných přístupů využívá senzor umístěný tak, aby sledovanou osobu snímal ze strany. Některé aplikace však mohou vyžadovat, aby byl senzor instalován mimo scénu, v níž se sledovaná osoba může pohybovat. Pro jednoho z našich partnerů jsme navrhli a implementovali real-time systém vhodný pro sledování lidského těla a rozpoznání předem definovaných gest za použití dat z hloubkového senzoru Microsoft Kinect, jenž je instalovaný přímo nad detekční oblastí.
Přehled systému
Systém se může pochlubit spolehlivou detekcí a sledováním lidského těla stejně tak jako podporou rozpoznání předem definovaných gest. O sledovaném člověku systém nemusí mít žádnou apriorní informaci, veškerá potřebná data jsou zjištěna během fáze detekce člověka. Systém korektně sleduje člověka i v případě výskytu více osob v detekční zóně, neboť selektivně pracuje pouze s daty odpovídajícími původně detekovanému člověku. Během důkladného testování, kdy byl systém spouštěn pro množství lidí rozličných výšek i tělesných proporcí, bylo dosaženo vysoké úspěšnosti přesahující 92 % a díky optimalizované implementaci v jazyce C++ společně s akcelerací na GPU pomocí frameworku CUDA běží systém v reálném čase (více než 30 FPS). Díky těmto výsledkům je systém vhodný pro nasazení do reálného provozu.
Hardware
Vstupní data jsou produkována hloubkovým senzorem Microsoft Kinect Xbox 360, jenž je instalován ve výšce 3.8 – 5.5 m nad zemí. Získané snímky jsou následně zpracovány výkonným počítačem s následujícími hardwarovými parametry: CPU Intel Core i5 4590 @ 3.3 Ghz x 4, GPU Nvidia GeForce GTX 760, 4GB RAM.
Software
Systém staví na optimalizované implementaci v jazyce C++ s využitím frameworku ROS (Robot Operating System). Některé výpočetně náročnější části systému jsou akcelerovány na GPU prostřednictvím frameworku CUDA.
Video
Využití
Systém nalezne uplatnění především v případech, kdy je vyžadována vysoká přesnost a spolehlivost sledování lidského těla, přičemž je kladen důraz na to, aby použitý senzor nijak nezasahoval do detekční zóny. Příkladem mohou být řešení z oblasti přirozené interakce člověk-stroj, aplikace zábavního průmyslu nebo bezpečnostní nástroje. Náš systém byl nasazen českým výrobcem luxusních kinetických instalací a designových svítidel, společností Lasvit s.r.o., jakožto zábavní nástroj umožňující člověku prostřednictvím gest ovládat skleněnou kinetickou instalaci a byl vystaven na veletrhu světelných řešení Euroluce 2015 pořádaném v dubnu 2015 v Miláně.
Vlastnosti
Ocenění
Systém byl prezentován na konferenci Excel@FIT 2015 – studentské konferenci inovací, technologií a vědy v IT, jež se uskutenčnila dne 30.4.2015 pod záštitou Fakulty informačních technologií Vysokého učení technického v Brně. Autoři získali první cenu za výborný nápad, druhou cenu za inovační potenciál, třetí cenu za obchodní potenciál a čtvrtou cenu za společenský přínos.