Nota biográfica
Miloš Jakubíček es el director ejecutivo (CEO, por sus siglas en inglés) de Lexical Computing, empresa de investigación que trabaja en el ámbito de las tecnologías del lenguaje, principalmente en la imbricación de disciplinas como la lingüística de corpus, la lingüística computacional y la lexicografía computacional. Asimismo, es investigador en el campo del procesamiento del lenguaje natural (PLN) e ingeniero de software. Su investigación versa principalmente sobre dos ámbitos de estudio: el tratamiento eficaz de grandes corpus de texto y el análisis de lenguas de gran riqueza morfológica. Miloš está inmerso, desde 2008, en el desarrollo del producto estrella de Lexical Computing: el sistema de gestión de corpus Sketch Engine. Desde 2011, es director de la sucursal checa de Lexical Computing, en la que lidera el equipo local de desarrollo de Sketch Engine, así como director ejecutivo (CEO) de Lexical Computing desde 2014. Miloš es asimismo miembro del centro de procesamiento del lenguaje natural (NLP Centre) en la Universidad de Masaryk, en cuyo seno lleva a cabo su labor investigadora principalmente en torno a dos ámbitos: el análisis morfosintáctico y sus aplicaciones prácticas.
How to find multi-word expressions in corpora
In the talk I will present automatic methods for finding some types of multi-word expressions in corpora. I will present a very simple typology of multi-word expressions based on some standard properties like fixedness or discontinuity and show how these properties determine suitable ways for automatic identification of the respective multi-word expression in corpora. Special focus will be put on lexicographic applications where, unlike in the case of single-word units, mere frequency is not sufficient for generating multi-headword candidates and, again unlike in the case of single-word units, there are no widely recognized strategies for automatic identification of these multi-word candidates.