Je fais de la saisie au kilomètre en utilisant l'éditeur emacs. Etant débutant et n'ayant pas eu le temps de me pencher sur la fonctionnalité abbrev de cet éditeur j'ai créé un petit script du type :
#!/bin/sed -f s/ c / c'est /g s/ pr / pour /g s/ ccl / chocolat /g ...
quand je passe ce script sur le document que j'ai saisi et en orientant la sortie vers un fichier
$ ./script.sh texte.txt>nouveautexte.txt
ce dernier ouvert dans emacs me donne la représentation suivante :
Je g\303\250re une soci\303\251t\303\251...une qui a mont\303\251 sa soci\303\251t\303\251 une autre qui fait de l'\303\251conomie gestion la 3e qui pr\303\251pare m\303\251decine
Pour contourner le problème j'ouvre nouveautexte.txt dans oowriter (OpenOffice) et j'accepte l'encodage utf-8 que ce logiciel me propose. il me suffit d'appuyer sur ctrl+s pour l'enregistrer de nouveau et tout rentre dans l'ordre. Je peux désormais ouvrir mon fichier dans emacs en retrouvant les accents proprement représentés au lieu des '\303\251', '\303\250' et autres.
Ce que j'aimerais savoir c'est :
- pourquoi la sortie d'un script
#! /bin/sed -fpassé à travers le fichier
texte.txt: UTF-8 Unicode C++ program text, with very long linesdonne un fichier
nouveautexte.txt: Non-ISO extended-ASCII C++ program text, with very long lineset y'aurait-il une solution pour traiter le problème à ce niveau là
- pourquoi emacs échoue là ou oowriter réussit en proposant un choix d'encodage
J'ai certainement mal lu l'info sed, mais je n'ai rien trouvé qui se rapporte à ce problème (sed serait-il réservé à l'anglais et aux langues non accentuées ? ) ; j'ai essayé quelques solutions de conversion à la volée mais celles ci m'ont donné encore plus de fil à retordre ;
En m'excusant d'avance si cette sollicitation est mal placée dans le forum, je compatis à tous ceux qui partagent ou ont partagé ma peine et remercie tous ceux qui pourront nous aider.
