Desenvolupament guiat per corpus d'un analitzador morfològic de català antic. Corpus-driven development of a morphological analyser for old Catalan. Sandra Montserrat , Marinela Garcia-Sempere , [Dept. Filologia Catalana, Universitat d'Alacant, E-03071 Alacant] Patrícia Gilabert-Zarco , Mikel L. Forcada , Alícia Garrido , [Dept. Llenguatges i Sistemes Informàtics, Univ. Alacant, E-03071 Alacant] Amaia Iturraspe-Bellver La comunicació descriurà un projecte en marxa que reprén el desenvolupament d'un analitzador morfològic (que inclou, per tant, un lematitzador) de català antic públicament accessible per internet. Pretenem que aquest aquest analitzador es convertisca en una eina útil per al tractament morfològic de corpus de català antic; a banda d'això, serà el primer mòdul d'un sistema futur l'objectiu del qual és oferir automàticament una lectura en català modern de qualsevol text antic en suport informàtic. El projecte es basa en un analitzador existent però de cobertura limitada (http://internostrum.com/lematitzador/) desenvolupat per alguns dels autors prenent com a base el vocabulari i paradigmes de flexió antiga recollits en un diccionari manual [Costa, M. i Tarrés, M. (1998) "Diccionari del Català Antic", Barcelona: Ed. 62]; l'analitzador existent és extremament veloç gràcies a l'ús de tècniques d'estats finits (10.000 mots per segon sore un PC convencional). El sistema es genera automàticament a partir de les dades lingüístiques, cosa que permet una actualització contínua i senzilla del programa. A més de reorganitzar els diccionaris i els paradigmes de flexió i de variació gràfica del lematitzador actual, el projecte es proposa usar corpus de textos catalans antics públicament disponibles (RIALC, Biblioteca Virtual Joan Lluís Vives) per a fer el sistema més robust front a variacions gràfiques i criteris divergents de transcripció i per a millorar-ne la cobertura (fracció de text analitzat) mitjançant la inclusió d'entrades segons la freqüència d'aparició observada. L'objectiu final és la construcció d'un analitzador morfològic de català antic que siga ràpid, robust, lliurement accessible per internet, i fàcilment integrable en altres aplicacions (com ara els cercadors o indexadors de biblioteques digitals). La comunicació descriurà les estratègies lingüístiques i informàtiques que usa el projecte per a aconseguir aquestos fins. The communication will describe an ongoing project that takes up again the development of a morphological analyser (therefore including a lemmatizer) for old Catalan which will be publicly accessible through the internet. The analyser will become a useful tool for the morphological treatment of old Catalan corpora; moreover, it will be the first module of a future system whose aim is to offer an automatic modern Catalan reading of any old text in electronic format. The project is based on an existing analyser having limited coverage (http://www.internostrum.com/lematitzador/), developed by some of the authors based on the vocabulary and paradigms found in a paperback dictionary [Costa, M. & Tarrés, M. (1998) "Diccionari del Català Antic", Barcelona: Ed. 62]; the existing analyser is extremely fast thanks to the use of finite-state techniques (10.000 words per second on a conventional PC). The system is automatically generated from the linguistic data; this allows for an easy and continuous updating of the system. In addition to reorganizing the dictionaries and the inflection and spelling variation paradigms, the project will use publicly available corpora of old Catalan texts (RIALC, Joan Lluís Vives Digital Library) to make the system more robust to spelling variations and divergences in transcription criteria and to improve its coverage (fraction of analysed text) by adding entries according to their observed occurrence frequencies. The final objective is building a morphological analyser for old Catalan which is fast, robust, freely available through the net, and easily integrated in other applications (such as search and indexing engines for digital libraries). The communication will describe the linguistic and programming strategies used by the project to achieve these objectives.