A block finder operates on one-dimensional digitized text, to group together those portions which are likely to contain related subjects matter, and to mark the grouped portions so that, at a later step of natural-language processing, only that block within which a word is found is searched for a related words or words. The block finder (210) extracts two-dimensional symbols, such as paragraph symbols (314), from the text, and stores the text in a grid of cells of a "two-dimensional" memory. All of the grid locations are classified as text (T) or space (white or W). Prefiltering (316) of the text deletes white spaces between sentences. Boundaries of the block are identified by examining each cell, and at least some of its adjoining cells, and identifying as an edge those boundaries between cells in which a transition between T and W occurs. This results in a list of unit-length boundary edges with top, bottom, left or right attributes. The unit-length boundary edges of each attribute are formed into longer edges identified by attribute and end points. Closed regions are formed by joining each top with those two left and right boundaries having identical end points, and those in turn are joined with top or bottom boundaries having common end points. The result is a closed region, which may have jagged edges. The block is simplified by determining two corner locations of a bounding box. Searching is performed for associated entities (words or phrases) within the same bounding box.

Искатель блока приведется в действие дальше одноразмерный digitized текст, для того чтобы собрать совместно те части которые правоподобны для того чтобы содержать смежные дисциплины имеют значение, и маркировать собранные части так, что, на более последнем шаге natural-language обрабатывать, только тот блок внутри который слово найдено поискан для родственные слова или слова. Искатель блока (210) извлекает плоские символы, such as символы параграфа (314), от текста, и магазины текст в решетке клеток "плоской" памяти. Все из положений решетки расклассифицированы как текст (T) или космос (белизна или ш). Prefiltering (316) текста уничтожает белые пространства между предложения. Границы блока определены путем рассматривать каждую клетку, и по крайней мере некоторый из своих граничащих клеток, и определять как край те границы между клетками в которых переход между т и ш происходит. Это приводит к в перечне края границы блок-dliny с верхней частью, дном, налево или справедливо атрибуты. Края границы блок-dliny каждого атрибута сформированы в более длинние края определенные конечными точками атрибута и. Закрытые зоны сформированы путем соединять каждую верхнюю часть при те 2 left and right границы имея идентичные конечные точки, и те в свою очередь соединены при границы верхней части или дна имея общие конечные точки. Результатом будет закрытая зона, которая может выщербить края. Блок упрощан путем обусловливать 2 угловойых положения прыгая коробки. Искать выполнен для associated реальностей (слова или фразы) внутри такая же прыгая коробка.

 
Web www.patentalert.com

< (none)

< System and method for differential compression of data from a plurality of binary sources

> Data merging techniques

> (none)

~ 00033