Le projet s'achève enfin 😀 Beaucoup de choses se sont passées depuis le dernier article, en voici un bref aperçu (liste non-exhaustive à l'intention des ingénieurs linguistes en herbe) : - l'analyse avec le Trameur : aaah le Trameur! Serge Fleury nous en offre gracieusement le mode d'emploi, encore faut-il se familiariser avec les boutons, …
Auteur : amchtal
Un premier pas vers le Trameur
Le fameux travail avec l'outil Trameur approche! Avant de plonger dans le vif du sujet, on prépare le terrain pour l'analyse et on crée une nouvelle colonne dans le tableau, appelée index. L'index de chaque url montre la liste de tous les mots employés dans le dump et leur fréquence (à cette étape on commence …
Le nettoyage du dump – épisode 1
Encore une amélioration au script! Cette fois-ci, il s'agit de "nettoyer" le dump. Par exemple, les lignes commençant par * ou + (cela représente des boutons) ne sont pas exploitables dans l'analyse du corpus. Pourtant, parfois le mot recherché est présenté sous la forme de boutons (ce qui explique la fréquence élevée du motif dans …
Le minigrep et les couleurs
Le programme fonctionne, c'est déjà pas mal, mais il peut encore être amélioré. Prenons comme exemple les contextes des mots recherchés, qui donnent ceci comme résultat : Tout ça n'est pas très représentatif. On peut difficilement repérer le mot recherché sans connaitre la langue. Heureusement, Monsieur Fleury a mis au point un petit programme qui …
Les tableaux – épisode 2
Les expressions régulières fonctionnent pour chaque langue, il est maintenant temps de les rassembler et d'admirer le programme créer les trois tableaux tout seul comme un grand. C'était trop beau pour être vrai. Les expressions régulières reconnaissait au départ plus de mots qu'elles ne le devraient. Ainsi, en albanais, elle reconnaissait le mot adoleshentet. J'ai …
Les tableaux – épisode 1
Miracle! Après des heures à me demander pourquoi ça ne fonctionne pas quelques modifications, le code fonctionne enfin. Dans mon fichier parametres j'ai utilisé l'expression régulière [Ll]esh(i|it)? afin de rechercher lesh, leshi, leshit, Lesh, Leshi, et Leshit dans le dump. Problème rencontré : la commande curl renvoyait au début la valeur 000 (quelle idée !) …
Petites modifications
Nous avons vu en cours comment résoudre l'affichage de nos tableaux en ajoutant la balise <meta charset = utf - 8> lors de la création du tableau html. Bien sûr, c'est loin d'être parfait. Il reste à traiter les problèmes d'encodage à l'aide des nouvelles commandes vues en cours (curl, file, iconv). Au boulot!
Le code, ce joyeux casse-tête
Avant de plonger nos jolies petites mains dans le cambouis, nous avons réalisé le schéma algorithmique de notre futur programme (histoire de mourir devant toutes ces lignes incompréhensibles comprendre ce que nous devons faire). Nous avons décomposé le code en trois étapes. La première étape est la lecture des paramètres. Notons que nous avons légèrement …
Pour bien commencer
On progresse tout doucement. Il faut maintenant créer l'arborescence de travail nécessaire au projet. Après s’être placé dans le bon répertoire de travail, on crée un nouveau répertoire appelé PROJET-MOT-SUR-LE-WEB et on vérifie si le répertoire a bien été créé avec la commande ls : On se déplace dans le répertoire PROJET-MOT-SUR-LE-WEB et on exécute ensuite le script …
Un monde de commandes
Certes, un peu effrayant au début. Cette première appréhension passée, on peut commencer à s'exercer! Après s'être déplacé dans le bon répertoire de travail, on exécute les commandes suivantes : mkdir TEST1 mkdir TEST2 mkdir TEST3 ls cd TEST1 touch vide1.txt ../TEST1/vide2.txt ../TEST2/vide3.txt echo «morgane» > vide1.txt echo «laine» >> vide1.txt mv vide1.txt jenesuisplusvide.txt cp jenesuisplusvide.txt ../TEST2 …