Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors

   
   

A language input architecture converts input strings of phonetic text (e.g., Chinese Pinyin) to an output string of language text (e.g., Chinese Hanzi) in a manner that minimizes typographical errors and conversion errors that occur during conversion from the phonetic text to the language text. The language input architecture has a search engine, one or more typing models, a language model, and one or more lexicons for different languages. Each typing model is trained on real data, and learns probabilities of typing errors. The typing model is configured to generate a list of probable typing candidates that may be substituted for the input string based on probabilities of how likely each of the candidate strings was incorrectly entered as the input string. The probable typing candidates may be stored in a database. The language model provides probable conversion strings for each of the typing candidates based on probabilities of how likely a probable conversion output string represents the candidate string. The search engine combines the probabilities of the typing and language models to find the most probable conversion string that represents a converted form of the input string. By generating typing candidates and then using the associated conversion strings to replace the input string, the architecture eliminates many common typographical errors. When multiple typing models are employed, the architecture can automatically distinguish among multiple languages without requiring mode switching for entry of the different languages.

Eine Sprache gab Architekturbekehrt-Eingang Zeichenketten des Lauttextes (z.B., chinesisches Pinyin) zu einer Ausgang Zeichenkette des Sprachentextes (z.B., chinesisches Hanzi) in gewissem Sinne ein, der typographische Fehler und Umwandlung Störungen herabsetzt, die während der Umwandlung vom Lauttext zum Sprachentext auftreten. Die Spracheneingang Architektur hat ein Search Engine, eins oder mehr schreibenmodelle, ein Sprachenmodell und ein oder mehr Lexika für unterschiedliche Sprachen. Jedes schreibenmodell wird auf realen Daten ausgebildet und Wahrscheinlichkeiten von Tippfehlern erlernt. Das schreibenmodell wird zusammengebaut, um eine Liste der wahrscheinlichen schreibenanwärter zu erzeugen, die für die Eingang Zeichenkette ersetzt werden können, die auf Wahrscheinlichkeiten basiert von, wie wahrscheinlich jede der Bewerberzeichenketten falsch als die Eingang Zeichenkette betreten wurde. Die wahrscheinlichen schreibenanwärter können in einer Datenbank gespeichert werden. Das Sprachenmodell stellt wahrscheinliche Umwandlung Zeichenketten für jeden der schreibenanwärter zur Verfügung, die auf Wahrscheinlichkeiten basieren von, wie wahrscheinlich eine wahrscheinliche Umwandlung Ausgang Zeichenkette die Bewerberzeichenkette darstellt. Das Search Engine kombiniert die Wahrscheinlichkeiten der Schreiben- und Sprachen,modelle, zum der wahrscheinlichsten Umwandlung Zeichenkette zu finden, die eine umgewandelte Form der Eingang Zeichenkette darstellt. Indem sie schreibenanwärter erzeugt und dann die verbundenen Umwandlung Zeichenketten verwendet, um die Eingang Zeichenkette zu ersetzen, beseitigt die Architektur viele allgemeine typographische Fehler. Wenn mehrfache schreibenmodelle eingesetzt werden, kann die Architektur unter mehrfachen Sprachen automatisch unterscheiden, ohne Modusschaltung für Eintragung der unterschiedlichen Sprachen zu erfordern.

 
Web www.patentalert.com

< Proxy server using a statistical model

< XSL transform

> Web page display system

> Method and system for maintaining font sizes on different platforms

~ 00175