CHWP A.3 Winder, "Reading the text's mind"


In the narrow acceptation of the word, lemmatisation is a text-transforming process in which a dictionary headword is substituted for an occurrence of one of its flexional forms (e.g., "go", the dictionary headword, is substituted for "went", "gone", etc. in the source text). Even in this practical and narrow sense, lemmatisation is "one of the most important and crucial steps in many non-trivial text-processing cycles" (Choueka and Lusignan 1985: 147).

In the more general and systematic framework of computational criticism, lemmatisation can be defined as the generation of a derivative text through an algorithm that combines a database (dictionary and tagging rules) and a source text. In this general acceptation of lemmatisation, the source text is interpreted -- reformulated -- in the context of the knowledge stored in the dictionary. How external information, both intratextual and extratextual, is used to generate such (re)categorisations is a fundamental problem that traverses all levels of the interpretative process.

In this article Peirce's type/token/tone trichotomy is used to explore some of the ramifications of the text-generation model of lemmatisation. It is argued that interpretation in the new medium is ultimately founded on a kind of quotation, called an attestation. To know what a text means is to know how it may be involved in attestation generation. This semantic model establishes a practical, useful, and theoretically coherent junction between lemmatisation in the narrow sense and complex critical interpretation.


Dans l'acception étroite du mot, la lemmatisation représente un processus de tranformation de texte dans lequel une vedette du dictionnaire remplace une occurrence de ses formes flexionnelles (par exemple, la vedette «aller» remplace «va», «vont», etc. dans le texte source). Même dans le cadre de cette acception pratique et restreinte, la lemmatisation est "une des étapes les plus importantes et cruciales dans beaucoup d'opérations non-triviales de transformation de texte" (Choueka and Lusignan 1985: 147).

Dans le cadre plus général et systématique de la critique informatisée, la lemmatisation se laisse décrire comme l'engendrement d'un texte second par un algorithme combinant une base de données (dictionnaire et règles d'étiquetage) et un texte source. Dans cette acception de la lemmatisation, le texte source est interprété -- reformulé -- dans le contexte des informations stockées dans le dictionnaire. Comment de l'information, que ce soit externe ou interne au texte source, sert à engendrer de telles (re)catégorisations est un problème fondamental qui apparaît à tous les niveaux interprétatifs.

Dans cet article, nous nous servons d'une trichotomie peircienne, type/token/ton, pour explorer les conséquences de ce modèle de lemmatisation fondé sur l'engendrement de textes.

