À travers le projet COLaF (Corpus et Outils pour les Langues de France), Inria a pour objectif de contribuer au développement de corpus et d’outils libres pour le français et les autres langues de France, en étroite collaboration avec des partenaires académiques et institutionnels.
Le périmètre de COLaF inclut à la fois :
COLaF vise à couvrir la diversité du français et des langues de France :
Les travaux au sein du projet couvrent notamment l’acquisition et structuration de textes à partir de sources non textuelles (livres, enregistrements audio, etc.), la classification par langues et par variétés linguistiques de gros volumes de textes (en lien étroit avec le projet OSCAR), le développement de modèles d’annotation et de transformation (traduction, normalisation, synthèse vocale, génération de langue des signes) au service du développement de corpus et de l’exploitation des ressources nouvellement créées.
COLaF est un DEFI Inria porté par Benoît Sagot (responsable de l’équipe-projet ALMAnaCH) et Slim Ouni (membre de l’équipe-projet MULTISPEECH).
Ce guide d'encodage vise à uniformiser les encodages des documents produits dans le cadre du projet COLaF. A partir des guidelines TEI, deux éditeurs peuvent faire pour encoder un même document des choix complètement différents. Ce fichier permet de pallier à cela en fournissant une description détaillée des choix d'encodage réalisés dans le cadre du projet et une ODD permettant de vérifier si les encodages réalisés se calquent bien sur cette documentation. Dû à la nature du projet, plusieurs difficultés se sont présentées à nous: la variété des documents différents à encoder et la représentation détaillée de langues parfois non décrites par les normes. Pour remédier à cela, les structures décrites pour chaque type de documents traité sont assez simple et la customization de l'ODD se concentre sur la représentation de la langue dans les métadonnées et le texte, à plusieurs niveaux de granularité et avec la possibilité de fournir des informations sur les prédictions de modèles de détection de langue.
Le corpus COLaF est composé de Sous-corpus (ou collection) construits en fonction d'une provenance commune et/ou contenant des documents similaires. Il est possible de classer les fichiers d'une collection dans des dossiers thématiques (Par exemple, Molyé est organisé par genre littéraire car contenant des pièces de théâtre, de la prose et des poèmes.)
L'identifiant du fichier apparait dans un element <idno> dans les métadonnées et nomme le fichier. Il doit avoir pour structure "{NomCollection}_{Identifiant}". Le nom de la collection doit être une réduction en un ou deux mots du nom du sous corpus sans espace ni accent (Par exemple Molyé devient molye, forum Occitania ForumOccitania....). Dans le cas d'un document qui a déjà été édité et possédant un identifiant, on reprend cet identifiant pour la partie Identifiant. Dans le cas d'un élément provenant du web, on récupère l'identifiant associé (URI). Autrement, l'identifiant sera un numéro incrémenté.
Toute valeur d'attribut ne doit pas contenir d'espace ou d'accent.
Le format des dates est prédéfini et nécessite d'utiliser l'attribut when. Si on souhaite ajouter le temps en heure, dans le cas de contenu obtenu sur internet notamment, il est nécessaire de la formater sous la forme YYYY-MM-DDTHH:SS:00Z.
La représentation de la langue est au coeur du travail du projet COLaF. Le but est de représenter la variation linguistique de chaque texte le mieux possible au niveau dialectal, géographique, chronologique et même social.
Pour ce faire, il faut décrire de la façon la plus précise possible les langues présentes dans les documents, via la balise <language> présente dans les métadonnées.Pour la langue, nous utilisons la norme Glottolog une base de données de langues et dialectes associant à chacun un identifiant unique et stable et développé par l'Institut Max Planck. Le script est décrit avec la norme ISO 15924, bien que sa valeur sera dans la plupart des cas "latn".
La langue de base des documents encodés est le français moderne de métropole. Sans contre-indication claire, toutes les métadonnées et le texte sont dans cette langue. Dans le cas où une autre langue est présente dans le document, il est nécessaire de l'indiquer avec l'attribut xml:lang sur la balise qui encode cet élément au niveau le plus haut. La valeur de cet attribut sera l'identifiant de la langue - valeur de ident de la balise <language>. Par exemple, un document en picard aura un titre et un texte en picard. Sur la balise décrivant le titre dans les métadonnées, comme il s'agit d'un titre en picard, faut ajouter cette information.Comme tout le texte est en picard, on ajoute cette information au niveau le plus haut dans sur la balise <text>.
Le TeiHeader contient les métadonnées du document. Il est divisé en quatre zones principales:
Le TitleStmt doit permettre l'identification du fichier. Il donne le nom du fichier, ses auteurs et éditeurs. Tous ces éléments sont obligatoires.
Le <publicationStmt> détaille les informations associées à la publication du document XML-TEI.
Le <sourceDesc>:Informations bibliographiques sur le texte encodé. Les données bibliographiques sont contenues dans une balise <bibl>. En fonction du format dans lequel est récupéré le texte encodé, plusieurs <bibl> peuvent coexister avec des type différents. Si le document est une source imprimée de base, l'attribut type va avoir pour valeur "printSource". S'il a une version numérique, qu'il s'agisse d'un document nativement numérique ou déjà traité par la collection dont il est issu, le type aura pour valeur "digitalSource". L'idée est de récupérer le plus d'informations possibles, si elles sont déjà indiquées, en se référant aux balises pouvant être contenues dans la balise <bibl>. Dans tous les cas, il est nécessaire d'avoir, pour chaque <bibl>, au moins les balises suivantes:
<extent> indique les dimensions du texte encodé sous la forme d'une balise <measure>. Plusieurs balises <measure> peuvent coexister les unes après les autres en fonction de ce qui est indiqué dans la collection extraite. Un attribut unit prend pour valeur l'unité décrite pouvant être tokens, words, sentences, pages. Une balise <measure> dont l'attribut unit a pour valeur token_colaf doit obligatoirement être présente.
Pour ajouter la valeur de token_colaf, une feuille XSLT/ un programme python est disponible dans le dépôt github des métadonnées du projet.
L'encodingDesc contient des informations sur les applications employées pour construire le fichier. Chaque application employée pour obtenir le fichier est rapporté dans une balise <application>. Elle doit contenir:
qui détaille le nom de l'application, sa version utilisée, son nom dans une balise <label> et un lien qui pointe vers l'appli avec la balise <ptr>.
Le ProfileDesc contient des informations complémentaires sur le fichier spécifique au projet. Dans le cas de COLaF il s'agit d'informations sur les langues présentes dans les documents, le type/genre du document et de façon optionnelle, les locuteurs présents dans le document.
Pour une description de la représentation des langues au niveau global du fichier, se réferer à la première partie. Pour satisfaire les besoins du projet, la balise <langue> est détaillée avec des informations sur son script, la période et le lieu.
La balise <language> contient:
Au vu de la quantité et de la variété de documents que le projet COLaF va traiter, il est nécessaire d'organiser le corpus en indiquant le type de document traité et le genre. Pour cela on utilise une série de mots clefs, issus d'un vocabulaire contrôlé en cours de construction et disponible ici.
Ce vocabulaire fonctionne sur plusieurs niveaux: Supergenre, genre et mots-clefs. Supergenre et genre sont des listes fermées tandis que mots-clefs acceptent l'ajout de nouveaux termes. Il faut combiner ces informations pour définir au mieux le document traité. Par exemple, un article de journal d'informatique sur internet sera décrit par les supergenres Nonfiction et Web, le genre Press et le mot-clef Technology computing engineering.
Ces informations se trouvent, à l'instar des langues, dans le <ProfileDesc>. En suivant l'exemple plus bas, chaque <term> correspond à un mot clef. L'attribut type renseigne sur le niveau de description du terme: "supergenre", "genre" ou "mot-clef". Le terme est à inscrire en toutes lettres entre les deux balises.
Contrairement aux autres métadonnées, cette métadonnée est optionnelle et est employable uniquement dans des cas précis de locuteurs différents de l'auteur. C'est par exemple le cas pour des pièces de théâtre, de participants à un débat transcrit ou des discussions sur internet de type Forum ou commentaires. L'idée est de pouvoir présenter les informations que l'on a sur les différents personnages qui participent au texte.
Pour ce faire, on utilise une balise <ParticDesc> qui contient une liste de personnes <Listperson>.Chaque personne est décrite avec une balise <person> qui contient les diverses informations disponibles sur elle, qui peuvent être (la liste est exhaustive, il n'est pas nécessaire d'avoir tout mais cela permet cependant de récupérer les informations que l'on a):
Chaque personne a un identifiant choisi numériquement afin d'associer les textes qu'il a écrit à son auteur à l'aide d'un ref="#identifiant". Il s'agit d'un exemple à retravailler sur un premier corpus de forums afin de définir exactement quelles balises conserver.
On considère que les métadonnées sont en français standard. Ainsi, si une information géographique est dans une autre langue, il faudra uniquement indiquer cette langue là avec l'attribut xml:lang comme dans l'exemple.
Le <revisionDesc> permet de conserver les modifications effectuées sur le document XML. Pour chaque modification une balise <change> est créée. Elle indique la date de la modification avec l'attribut when, la personne qui l'a modifié avec who qui renvoie à l'identifiant du responsable créé dans le <respStmt> et donne une brève information de la modification
Le texte est encodé dans une balise <text> et est encodé dans une balise <front> pour les pages de titre et les sommaires et dans une balise <body> pour le corps du texte.
Les divisions principales du texte sont indiquées et structurées avec la balise <div> qui peut être typée. Actuellement, les différentes valeurs que peut prendre l'attribut type dans le cadre de la division de base sont:
Dans le cas d'une page de titre, au sein de la balise <front>, la balise <div> est typée avec la valeur titlepage, sous la forme:
Les identifiants employés pour décrire les langues dans le corps du texte correspondent aux identifiants créés dans les métadonnées de langue (balise language, attribut ident). Pour les appeler dans le corps du texte on ajoute un dièse (#) devant cet identifiant.
La langue principale du document est indiquée dans la balise <text> avec l'attribut xml:lang. Dans le cas où la langue employée change dans le texte, on réutilise cet attribut avec la valeur qui correspond sur la balise qui encadre la langue. Par exemple, dans un texte en français, un paragraphe est en alsacien, on utilisera donc la balise <p> avec l'attribut xml:lang et la valeur #lang-02pour encadrer le paragraphe en alsacien. L'attribut xml:lang est autorisé sur toutes les balises.
Dans le cas d'un code switching au sein même d'une phrase, on utilise la balise <foreign> avec l'attribut xml:lang pour encadrer le ou les mots dans une langue différente.
Si on applique un modèle du type FastText sur le document afin de prédire les langues présentes dans le document et donc compléter l'attribut xml:lang, il est possible d'en indiquer les résultats avec la balise <certainty>.L'attribut match pointe vers l'élément que le modèle prédit et qui n'est donc pas sûr avec un XPATH (ici l'attribut xml:lang de la balise post). Locus indique que l'on prédit la valeur de cet attribut. Source donne une information sur le modèle qui a été utilisé pour prédire cette valeur et correspond au titre du modèle. degree donne le score de confidence de la valeur résultat. Si jamais on a plusieurs résultats, comme ici, on peut employer l'attribut assertedValue qui permet de d'indiquer le résultat précis décrit, ici la langue suivant les codes COLAF.
L'exemple est extrait de la structuration COLaF d'un forum Occitania spécialisé en occitan. Il a été décidé que dans le cas où le locuteur a donné de plus amples informations sur son dialecte, et si le modèle prédit comme résultat la langue la plus proche, d'indiquer comme langue du post, paragraphe, de la division décrit(e), le dialecte du locuteur. Ainsi, dans le cas où, pour un post de forum, le modèle prédit qu'il s'agit d'un texte en occitan et le locuteur a indiqué qu'il parlait de l'occitan limousin on indique comme suit: (où xml:lang prend la valeur met-occ-lim pour limousin et les balises certainty ont toutes deux un attribut assertedValue qui indique la langue prédite par le modèle.
L'encodage du texte en prose s'effectue avec la balise <p>.
Dans le cas où le texte n'est pas en prose mais en vers, on structure le texte avec les balises <lg> pour les strophes et <l> pour les vers.
Dans le cas d'un texte parlé, par exemple dans une pièce de théâtre ou dans une transcription de monologue, on utilise la balise <sp> pour encadrer le texte parlé, le locuteur du texte et les informations complémentaires de type didascalies. Le texte parlé est encadré par des <p> si il s'agit de prose ou par des <l> s'il s'agit de vers. La personne qui parle est indiqué par la balise <speaker> et, si possible, par la valeur de l'attribut <who> qui renvoie à un identifiant défini dans les métadonnées au niveau du <particDesc> décrit dans les métadonnées. Les didascalies sont indiquées par la balise <stage>.
Tous les éléments indiqués ne pourront pas être forcément détaillés dans le fichier TEI, le plus important est de conserver la balise <stage>, <p> ou <l> et dans une moindre mesure <speaker> et <stage>.
Lorsque des listes sont présentes dans le fichier à encoder, il est nécessaire de les structurer de telle façon:
Les listes non ordonnées, numérotées ou non sont toutes concernées.
Les entrées correspondent aux paragraphes structurés de type entrées de dictionnaires ou de catalogues, citations bibliographiques, etc... Il ne s'agit pas de phrases mais d'informations structurées dans un ordre précis qui en général se répètent.
Deux niveaux d'encodage sont acceptés pour traiter ces données. Soit on encode dans une division <div> typée avec entry et <p>, soit on détaille un peu plus l'information avec les balises dédiées ci-dessous:
Il s'agit d'une version détaillée au maximum. Il n'est pas obligé de décrire aussi profondément l'entrée la balise <form> pour l'élément décrit et la balise <sense> pour la définition peuvent suffire.
Pour encoder les posts de réseaux sociaux et autres commentaires web de type forum, un parti pris a été choisi d'utiliser une balise <post>, en cours d'étude par le consortium TEI et pas encore ajouté au schéma actuelle de la TEI. En effet, cette balise nous semble la plus apte à indiquer toutes les informations nécessaires à chaque post à encoder.
Ici un exemple extrait d'un forum d'occitan traité par COLaF. La balise <post> indique donc qu'il s'agit d'un objet de type micro-blogging ou commentaire web. L'attribut who indique le rédacteur du commentaire en faisant référence à l'identifiant de la personne tel qu'il a été déterminé dans le ParticDesc (voir la documentation sur les participants). L'attribut when encode la date d'écriture du commentaire. L'attribut xml:id indique l'identifiant choisi pour le post ici sous la forme Identifiant du forum - identifiant du post dans le HTML. La balise peut contenir des paragraphes, listes, images...
Un type emoji a été ajouté à la liste des types de figure afin d'encoder les emojis, fréquents dans ce type de document. La balise head contient le head du HTML et on conserve également l'url de l'image.
Dans le cas où les pages sont indiquées, il faut les reporter avec la balise autofermante <pb>. Si les retours à la ligne ou tout simplement les lignes sont indiquées, il faut les reporter avec la balise autofermante <lb> pour line beginning, donc au début de chaque ligne.
Où <pb> a pour attribut non obligatoire <n> qui indique le numéro de page et <facs> qui renvoie vers la page décrite dans la suite du document (en général un url).
Les données liminaires correspondent aux informations qui ne font pas parties du texte principale. C'est le cas de la numérotation de page, des notes de bas de page, du titre courant, c'est à dire le titre du document/chapitre, le nom de l'auteur qui peuvent être répétés en haut ou bas d'une page....
Les titres de sections, livres et chapitres sont encodés avec une balise <head>. Les notes de bas de page ou de marge sont annotées avec une balise <note> à l'intérieur du paragraphe qu'elles décrivent, au niveau du mot qui a la note. Les numérotations de page sont encodées avec la balise <fw> typée avec la valeur numberin et les titres courant avec même balise mais typée runningTitle. Les informations complémentaires en marge non classables utilisent un typage quiremarks.
Pour ce qui est des éléments sémantiques, il est possible d'encoder un date avec la balise <dateline>, une signature avec une balise <signed> et une initiale avec la balise <hi> typée dropCapital
Les images et tableaux sont tous décrits au sein d'une balise <figure> qui peut être typée en fonction de l'élément décrit:
Chaque figure peut être décrite par un titre avec la balise <head>, une brève description avec la balise <figdesc>, un lien vers l'image décrite avec la balise <graphic> et son attribut <facs>. La balise <figure>peut également contenir des balises <p> si du texte supplémentaire se trouve dans l'image.
Les données d'annotation linguistique sont représentées avec les balises <s> pour encoder une phrase, <w> pour un mot/token et <pc> pour de la ponctuation. Les attributs de base de description morphosyntaxiques y sont associés: pos pour le part of speech, lemma pour les lemmes, n...
Le premier forum traité par COLAF est Forum Occitania. Les exemples ci-dessous ont été produits par Oriane Nedey et Juliette Janès.
Tout le forum est encodé dans le même document XML. Les forums sont structurés en sous forums eux même structurés en topics. Ainsi, une balise <div> typée forum indique cette première division et une deuxième balise <div> typée topic indique la deuxième. Des attributs n pour numéroter les divisions et facs pour lier la balise à la page qu'elle encode peuvent être employées mais ne sont pas obligatoires. Les titres des forums et topics sont indiqués dans des balises <head>.
Chaque post est encodé par une balise <post> dont l'utilisation est décrite dans le 1.3.3.6. La langue, décrite dans l'attribut xml:lang de cette balise, est prédite par un modèle d'où la balise <certainty> intégrée dans la balise post (voir 1.3.2.). Les paragraphes sont structurés par des <p>, les listes par des <list> et <items>. Ici, les débuts de lignes sont indiqués avec <lb>. Les images et emojis sont indiqués par <figure> et typés (voir 1.3.4.3.). Les url sont encodés par la balise <ref>.
Les réponses à un post, sous la forme d'une citation, typiques des forums, qui reprennent le post, sont encodés par un <quote> avec un attribut corresp qui pointe vers l'identifiant du post correspondant. Dans le cas où la citation n'est pas retrouvée dans la conversation, il n'y a pas d'attribut corresp et on ajoute une balise <label> qui encode l'élément Personne a écrit/dit.
Specification []
Module: tei | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
+ att.textCritical | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
+ model.rdgLike | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
+ model.rdgPart | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
+ att.linguistic | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
+ model.persNamePart | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: namesdates | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: corpus | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: core | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: figures | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: analysis | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: header | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: transcr | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: linking | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: textstructure | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: dictionaries | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: certainty | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: tagdocs | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Module: cmc | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<location> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<persName> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<person> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<langKnown> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<socecStatut> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<p> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<quote> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<name> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<date> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<ref> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<list> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<head> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<note> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<pb> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<lb> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<author> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<resp> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<title> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<lg> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<stage> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<sp> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<hi> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<respStmt> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<measure> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<term> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<figure> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<bibl> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<teiHeader> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<fileDesc> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<titleStmt> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<publicationStmt> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<sourceDesc> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<idno> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<funder> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<principal> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<availability> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<licence> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<language> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<change> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<profileDesc> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<fw> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<ab> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<s> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<w> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<pc> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
att.linguistic |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<TEI> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<text> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<div> |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
<certainty> |
|