Version imprimable

Ressource documentaire

Action recognition from video: some recent results (en Anglais)


URL d'accès : http://www.canal-u.tv/canalu/producteurs/fuscia/do...

Droits : Droits réservés à l'éditeur et aux auteurs

Auteur(s) : SCHMID Cordelia, VSP - Vidéo Sud Production
Éditeur(s) : Région PACA , INRIA
01-12-2011

Description : While recognition in still images has received a lot of attention over the past years, recognition in videos is just emerging. In this talk I will present some recent results. Bags of features have demonstrated good performance for action recognition in videos. We briefly review the underlying principles and introduce trajectory-based video features, which have shown to outperform the state of the art. These features are obtained by dense point sampling in each frame and tracking them based on displacement information from a dense optical flow field. Trajectory descriptors are obtained from motion boundary histograms, which are robust to camera motion. We then show how to integrate temporal structure into a bag-of-features model based on so-called actom sequences. We localize actions based on sequences of atomic actions, i.e., represent the temporal structure by sequences of histograms of actom-anchored visual features. This representation is flexible, sparse and discriminative. The resulting model is shown to significantly improve performance over existing methods for temporal action localization. Finally, we show how to move towards more structured representations by explicitly modeling human-object interactions. We learn how to represent human actions as interactions between persons and objects. We localize in space and track over time both the object and the person, and represent an action as the trajectory of the object with respect to the person position, i.e., our human-object interaction features capture the relative trajectory of the object with respect to the human. This is shown to improve over existing methods for action localization.
Mots-clés libres : analyse video, apprentissage, interprétation scène, reconnaissance video
TECHNIQUE

Type : image en mouvement
Format : video/x-flv


Source(s) : 
rtmp://streamer2.cerimes.fr/vod/canalu/videos/fuscia/schmidt_H264_240kbit_inria_sd.mp4


Entrepôt d'origine : Canal-U - OAI Archive
Identifiant : oai:canal-u.fr:247503
Type de ressource : Ressource documentaire
Exporter au format XML

Ressource pédagogique

(en Anglais)


URL d'accès : http://www.canal-u.tv/canalu/producteurs/fuscia/do...
rtmp://streamer2.cerimes.fr/vod/canalu/videos/fusc...

Identifiant de la fiche : 247503
Schéma de la métadonnée : LOMv1.0, LOMFRv1.0

Droits : libre de droits, gratuit
Droits réservés à l'éditeur et aux auteurs

Auteur(s) : SCHMID CORDELIA
Éditeur(s) : INRIA, Université de Nice Sophia Antipolis, CNRS - Centre National de la Recherche Scientifique, Région PACA, INRIA, VSP - Vidéo Sud Production
01-12-2011

Mots-clés libres : analyse video, apprentissage, interprétation scène, reconnaissance video

Classification UNIT : Informatique > Intelligence artificielle : apprentissage, représentation
Systèmes d'information > Fouille de données
Traitement signal et image > Vision, perception
Classification : Instruments du savoir : organisations et documents > Informatique
Indice(s) Dewey: Vision par ordinateur (006.37)


PEDAGOGIQUE

Type pédagogique : cours / présentation

Niveau : enseignement supérieur, master, doctorat



TECHNIQUE


Type de contenu : image en mouvement
Format : video/x-flv
Taille : 96.59 Mo
Durée d'exécution : 44 minutes 9 secondes



RELATIONS


Cette ressource fait partie de :
  • Colloquium Jacques Morgenstern : recherches en STIC - nouveaux thèmes scientifiques, nouveaux domaines d’application, et enjeux



Entrepôt d'origine : Canal-U - OAI Archive
Identifiant : oai:canal-u.fr:247503
Type de ressource : Ressource pédagogique
Exporter au format XML