System and method for identifying facts and legal discussion in court case law documents page

A computer-implemented method of gathering large quantities of training data from case law documents (especially suitable for use as input to a learning algorithm that is used in a subsequent process of recognizing and distinguishing fact passages and discussion passages in additional case law documents) has steps of: partitioning text in the documents by headings in the documents, comparing the headings in the documents to fact headings in a fact heading list and to discussion headings in a discussion heading list, filtering from the documents the headings and text that is associated with the headings, and storing (on persistent storage in a manner adapted for input into the learning algorithm) fact training data and discussion training data that are based on the filtered headings and the associated text. Another method (of extracting features that are independent of specific machine learning algorithms needed to accurately classify case law text passages as fact passages or as discussion passages) has steps of: determining a relative position of the text passages in an opinion segment in the case law text, parsing the text passages into text chunks, comparing the text chunks to predetermined feature entities for possible matched feature entities, and associating the relative position and matched feature entities with the text passages for use by one of the learning algorithms. Corresponding apparatus and computer-readable memories are also provided.

Une méthode ordinateur-mise en application de recueillir de grandes quantités de données de formation des documents de jurisprudence (particulièrement appropriés pour l'usage comme entrée à un algorithme d'étude qui est employé dans un processus suivant d'identifier et de distinguer des passages de fait et des passages de discussion dans les documents additionnels de jurisprudence) a des étapes de : divisant le texte dans les documents par des titres dans les documents, comparant les titres dans les documents aux titres de fait dans une liste de titre de fait et aux titres de discussion dans une liste de titre de discussion, filtrant des documents les titres et le texte qui est associé aux titres, et stockant (sur le stockage persistant en quelque sorte adapté pour l'entrée dans l'algorithme d'étude) les données de formation de fait et les données de formation de discussion qui sont basées sur les titres filtrés et le texte associé. Une autre méthode (d'extraire les dispositifs qui sont indépendant des algorithmes spécifiques d'étude de machine requis pour classifier exactement le texte de jurisprudence passe comme des passages de fait ou comme passages de discussion) a des étapes de : déterminant une position relative du texte passe dans un segment d'opinion dans le texte de jurisprudence, analysant le texte passe dans des gros morceaux des textes, comparant les gros morceaux des textes aux entités prédéterminées de dispositif pour les entités assorties possibles de dispositif, et associer la position relative et les entités assorties de dispositif aux passages des textes à l'usage d'un des algorithmes d'étude. Des appareils correspondants et les mémoires lisibles à la machine sont également fournis.