Representation and retrieval of images using content vectors derived from image information elements page

Image features are generated by performing wavelet transformations at sample points on images stored in electronic form. Multiple wavelet transformations at a point are combined to form an image feature vector. A prototypical set of feature vectors, or atoms, is derived from the set of feature vectors to form an "atomic vocabulary." The prototypical feature vectors are derived using a vector quantization method (e.g., using neural network self-organization techniques) in which a vector quantization network is also generated. The atomic vocabulary is used to define new images. Meaning is established between atoms in the atomic vocabulary. High-dimensional context vectors are assigned to each atom. The context vectors are then trained as a function of the proximity and co-occurrence of each atom to other atoms in the image. After training, the context vectors associated with the atoms that comprise an image are combined to form a summary vector for the image. Images are retrieved using a number of query methods (e.g., images, image portions, vocabulary atoms, index terms). The user's query is converted into a query context vector. A dot product is calculated between the query vector and the summary vectors to locate images having the closest meaning. The invention is also applicable to video or temporally related images, and can also be used in conjunction with other context vector data domains such as text or audio, thereby linking images to such data domains.

De eigenschappen van het beeld worden door wavelet transformaties op steekproefpunten op beelden geproduceerd uit te voeren die in elektronische vorm worden opgeslagen. De veelvoudige wavelet transformaties op een punt worden gecombineerd om een vector van de beeldeigenschap te vormen. Een prototypereeks eigenschapvectoren, of de atomen, worden afgeleid uit de reeks eigenschapvectoren om een "atoomwoordenschat te vormen." De prototypeeigenschapvectoren worden afgeleid gebruikend een vectorkwantificatiemethode (b.v., gebruikend de neurale technieken van de netwerk zelf-organisatie) waarin een vectorkwantificatienetwerk ook wordt geproduceerd. De atoomwoordenschat wordt gebruikt om nieuwe beelden te bepalen. De betekenis wordt gevestigd tussen atomen in de atoomwoordenschat. De hoog-dimensionale contextvectoren worden toegewezen aan elk atoom. De contextvectoren worden dan opgeleid als functie van de nabijheid en het mede-voorkomen van elk atoom aan andere atomen in het beeld. Na opleiding, worden de contextvectoren verbonden aan de atomen die uit een beeld bestaan gecombineerd om een summiere vector voor het beeld te vormen. De beelden worden teruggewonnen gebruikend een aantal vraagmethodes (b.v., beelden, beeldgedeelten, woordenschatatomen, indextermijnen). De vraag van de gebruiker wordt omgezet in een vector van de vraagcontext. Een puntproduct wordt berekend tussen de vraagvector en de summiere vectoren om van beelden de plaats te bepalen die de dichtste betekenis hebben. De uitvinding is ook van toepassing op video of tijdelijk verwante beelden, en kan ook samen met andere domeinen van context vectorgegevens zoals tekst of audio worden gebruikt, daardoor aaneenschakelingsbeelden aan dergelijke gegevensdomeinen.