Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications

   
   

A video processing system tracks a moving person or other object of interest using a combined audio-video tracking system. The audio-video tracking system comprises an audio locator, a video locator, and a set of rules for determining the manner in which settings of a camera are adjusted based on outputs of the audio locator and video locator. The set of rules may be configured such that only the audio locator output is used to adjust the camera settings if the audio locator and video locator outputs are not sufficiently close and a confidence indicator generated by the audio locator is above a specified threshold. For example, in such a situation, the audio locator output alone may be used to direct the camera to a new speaker in a video conference. If the audio locator and video locator outputs are sufficiently close, the system determines if a confidence indicator generated by the video locator is above a specified level, and if so, the video locator output may be used to adjust the camera settings. For example, the camera may be zoomed in such that the face of a video conference participant is centered in and occupies a designated portion of a video frame generated by the camera.

Un système de traitement visuel dépiste une personne mobile ou tout autre objet d'intérêt en utilisant un système de piste combiné d'audio-vidéo. Le système de piste d'audio-vidéo comporte un repère audio, un repère visuel, et un ensemble de règles pour déterminer la façon dont des arrangements d'un appareil-photo sont ajustés a basé sur des sorties du repère audio et de repère de vidéo. L'ensemble de règles peut être configuré tels que seulement le rendement audio de repère est employé pour ajuster les arrangements d'appareil-photo si les sorties audio de repère et de repère de vidéo ne sont pas suffisamment étroites et un indicateur de confiance produit par le repère audio est au-dessus d'un seuil indiqué. Par exemple, dans une telle situation, le repère audio seul produit peut être utilisé pour diriger l'appareil-photo vers un nouveau haut-parleur dans une vidéoconférence. Si les sorties audio de repère et de repère de vidéo sont suffisamment étroites, le système détermine si un indicateur de confiance produit par le repère visuel est au-dessus d'un niveau indiqué, et si oui, le rendement visuel de repère peut être employé pour ajuster les arrangements d'appareil-photo. Par exemple, l'appareil-photo peut être bourdonné dans tels que le visage d'un participant de vidéoconférence est centré dedans et occupe une partie indiquée d'une armature visuelle produite par l'appareil-photo.

 
Web www.patentalert.com

< Media role management in a video conferencing network

< Interactive audio conferencing system

> Virtual conference room for voice conferencing

> Security and support for flexible conferencing topologies spanning proxies, firewalls and gateways

~ 00159