Method and system for bootstrapping statistical processing into a rule-based natural language parser

A method and system for bootstrapping statistical processing into a rule-based natural language parser is provided. In a preferred embodiment, a statistical bootstrapping software facility optimizes the operation of a robust natural language parser that uses a set of lexicon entries to determine possible parts of speech of words from an input string and a set of rules to combine words from the input string into syntactic structures. The facility first operates the parser in a statistics compilation mode, in which, for each of many sample input strings, the parser attempts to apply all applicable rules and lexicon entries. While the parser is operating in the statistics compilation mode, the facility compiles statistics indicating the likelihood of success of each rule and lexicon entry, based on the success of each rule and lexicon entry when applied in the statistics compilation mode. After a sufficient body of likelihood of success statistics have been compiled, the facility operates the parser in an efficient parsing mode, in which the facility uses the compiled statistics to optimize the operation of the parser. In order to parse an input string in the efficient parsing mode, the facility causes the parser to apply applicable rules and lexicon entries in the descending order of the likelihood of their success as indicated by the statistics compiled in the statistics compilation mode.
Обеспечены метод и система для bootstrapping статистически обрабатывать в rule-based парсер естественного языка. В предпочитаемом воплощении, статистически bootstrapping средство средства программирования оптимизирует деятельность робастного парсера естественного языка который использует комплект входов лексикона для того чтобы обусловить по возможности части речи слов от шнура входного сигнала и комплекта правил для того чтобы совместить слова от шнура входного сигнала в синтактные структуры. Средство сперва приводится в действие парсер в режиме составления статистик, в котором, по каждом из из много попробуйте шнуры входного сигнала, парсер пытает приложить все применимые правила и входы лексикона. Пока парсер работает в режиме составления статистик, средство составляет статистик показывая вероятие успеха каждых правила и входа лексикона, основанного на успехе каждых правила и входа лексикона после того как оно применяно в режиме составления статистик. После того как было составлено достаточно тело вероятия статистик успеха, средство приводится в действие парсер в эффективном режиме parsing, в котором средство использует составленные статистик для того чтобы оптимизировать деятельность парсера. Parse шнур входного сигнала в эффективном режиме parsing, причинах средства парсер для того чтобы приложить применимые правила и входы лексикона в ничходящий заказ вероятия их успеха как показано статистик составленными в режиме составления статистик.

Web www.patentalert.com

< (none)

< Method and system for dynamically adjusted training for speech recognition

> Identification of words in Japanese text by a computer system

> (none)

~ 00002