logo Debian Debian Debian-France Debian-Facile Debian-fr.org Forum-Debian.fr Debian ? Communautés logo inclusivité

Debian-facile

Bienvenue sur Debian-Facile, site d'aide pour les nouveaux utilisateurs de Debian.

Vous n'êtes pas identifié(e).

#1 27-01-2023 13:02:54

otyugh
CA Debian-Facile
Lieu : Quimperlé/Arzano
Distrib. : Debian Stable
Inscription : 20-09-2016
Site Web

Identifier le jeu de caractère utilisé ?

Yop,
j'ai ce fichier de csv (dont voici un extrait) dont j'arrive pas à identifier le jeu de caractère.

Y a un truc magique qui soit pas de tout tester toute sa vie jusqu'à ce que ça marche ? J'ai testé tout ce que proposait libreoffice mais les accents restent des "?" ! sad

https://gnuw.arzinfo.pw/data/otyugh/tmp/fec.csv

Dernière modification par otyugh (27-01-2023 13:04:15)


virtue_signaling.pngpalestine.png

Hors ligne

#2 27-01-2023 14:00:55

anonyme-15
Invité

Re : Identifier le jeu de caractère utilisé ?

Jamais testé, c'est l'occasion de savoir :

https://linuxfr.org/news/sortie-de-ucha … caracteres

#3 27-01-2023 14:40:31

anonyme
Invité

Re : Identifier le jeu de caractère utilisé ?

Bonjour
erreur c'est .cvs et pas  .csv   hmm
ps: éditeur pluma a le même souci
google ne connaît pas "fichier.cvs"   roll

Dernière modification par anonyme (27-01-2023 14:52:12)

#4 27-01-2023 15:12:47

choops
Membre
Distrib. : Debian sid
(G)UI : XFCE
Inscription : 07-05-2017

Re : Identifier le jeu de caractère utilisé ?

Idée débile: plutôt que de chercher à deviner à postériori quel jeu de caractères est utilisé pour générer le .csv, as-tu un moyen de définir le charset lors de l'export csv qui a été fait pour générer ce fichier ?

(J'ai essayé de basculer de charset en charset pour obtenir les accents dans un éditeur de texte sans succès)

Hors ligne

#5 27-01-2023 15:16:22

choops
Membre
Distrib. : Debian sid
(G)UI : XFCE
Inscription : 07-05-2017

Re : Identifier le jeu de caractère utilisé ?

anonyme a écrit :

erreur c'est .cvs et pas  .csv   hmm


Keuwa ???

.csv, c'est bien un type de fichier plutôt connu pour faire du tableur sous format texte avec des séparateurs spécifiques pour les sauts de colonnes

Hors ligne

#6 27-01-2023 15:17:45

Tawal
Membre
Distrib. : Debian Stable à jour
Noyau : amd64
(G)UI : Xfce
Inscription : 25-02-2021

Re : Identifier le jeu de caractère utilisé ?

Hello,

Je t'aurais bien dit :

file -bi ton_fichier


Mais sur l'extrait que tu donnes, j'obtiens :

$ file -bi ~/Téléchargements/fec.csv
application/csv; charset=utf-8
$



J'ai essayé aussi avec uchardet
Même résultat :

$ uchardet ~/Téléchargements/fec.csv
UTF-8
$



Je pense donc que ton fichier est corrompu. (edit2: car même le i minuscule a sauté, ça c'est étrange.)

Edit:
+1 pour l'idée "débile"  de choops tongue

Dernière modification par Tawal (27-01-2023 15:24:13)


Comme la science n'est pas infuse, elle se diffuse.
Useless Use of Cat Award
Filenames and Pathnames in Shell: How to do it Correctly
À chaque problème sa solution, à chaque solution son moyen, si pas de moyen, toujours le problème !

Hors ligne

#7 27-01-2023 16:56:48

otyugh
CA Debian-Facile
Lieu : Quimperlé/Arzano
Distrib. : Debian Stable
Inscription : 20-09-2016
Site Web

Re : Identifier le jeu de caractère utilisé ?

choops a écrit :

Idée débile: plutôt que de chercher à deviner à postériori quel jeu de caractères est utilisé pour générer le .csv, as-tu un moyen de définir le charset lors de l'export csv qui a été fait pour générer ce fichier ?


Le contexte c'est moi qui aide quelqu'un avec le fichier que lui a donné son comptable. J'ai posé la question bien entendu, mais je m'attends à rien de conclusif ^^'


virtue_signaling.pngpalestine.png

Hors ligne

#8 27-01-2023 19:42:19

nico34
Adhérent(e)
Distrib. : Bullseye
Noyau : Linux 5.10.0-10-amd64
(G)UI : Xfce
Inscription : 25-07-2016

Re : Identifier le jeu de caractère utilisé ?

Hello

contournement tongue

j'ai ouvert ton fichier avec LO et Gnumeric pour voir..
en sélectionnant le , puis les colonnes où je l'ai repéré
j'ai fait un chercher/remplacer (par è)

fonctionne avec les 2 chez moi
en espérant que le  soit tjrs è bien sûr

édit, j'avais le signe ? sur fond noir en rédigeant le message, il a disparu une fois validé...

Dernière modification par nico34 (27-01-2023 19:44:00)

Hors ligne

#9 27-01-2023 23:30:09

Tawal
Membre
Distrib. : Debian Stable à jour
Noyau : amd64
(G)UI : Xfce
Inscription : 25-02-2021

Re : Identifier le jeu de caractère utilisé ?

Re,

Un moyen de corriger cela (utiliser l'option -i pour éditer en direct) :

sed 's/\xef\xbf\xbd/è/g'  ton_fichier



Avec ton extrait :

$ sed 's/\xef\xbf\xbd/è/g' ~/Téléchargements/fec.csv
JournalCode,JournalLib,EcritureNum,EcritureDate,CompteNum,CompteLib,CompAuxNum,CompAuxLib,PieceRef,PieceDate,EcritureLib,Debit,Credit,EcritureLet,DateLet,ValidDate,Montantdevise,Idevise,DateRglt,ModeRglt,NatOp,IdClient
60,JOURNAL DES ACHATS,600000001,20211001,401OEG,OEG,,,260,20211001,OEG,0,393,4,AAA,20211026,20221208,,EUR,,,
60,JOURNAL DES ACHATS,600000001,20211001,6010100000,Achats mat.1ères sans TVA,,,260,20211001,Achats mat.1ères sans TVA,393,4,0,,,20221208,,EUR,,,
60,JOURNAL DES ACHATS,600000002,20211001,4456600000,TVA / AUTRES BIENS & SERVICES,,,263,20211001,TVA / AUTRES BIENS & SERVICES,7,2,0,,,20221208,,EUR,,,
60,JOURNAL DES ACHATS,600000002,20211001,401DIVERS,FOURNISSEURS DIVERS,,,263,20211001,ESVAN,0,43,2,ABG,20211018,20221208,,EUR,,,
60,JOURNAL DES ACHATS,600000002,20211001,6010000000,Achats matières premières,,,263,20211001,Achats matières premières,36,0,,,20221208,,EUR,,,,
60,JOURNAL DES ACHATS,600000003,20211001,6010000000,Achats matières premières,,,265,20211001,Achats matières premières,477,27,0,,,20221208,,EUR,,,
60,JOURNAL DES ACHATS,600000003,20211001,401CMB,CMB -PROLIANS,,,265,20211001,CMB -PROLIANS,0,572,72,AAA,20211101,20221208,,EUR,,,
60,JOURNAL DES ACHATS,600000003,20211001,4456600000,TVA / AUTRES BIENS & SERVICES,,,265,20211001,TVA / AUTRES BIENS & SERVICES,95,45,0,,,20221208,,EUR,,,
60,JOURNAL DES ACHATS,600000004,20211001,401ROUENEL,ROUENNEL,,,268,20211001,ROUENNEL,0,84,34,AAH,20211101,20221208,,EUR,,,
60,JOURNAL DES ACHATS,600000004,20211001,6010000000,Achats matières premières,,,268,20211001,Achats matières premières,70,28,0,,,20221208,,EUR,,,
60,JOURNAL DES ACHATS,600000004,20211001,4456600000,TVA / AUTRES BIENS & SERVICES,,,268,20211001,TVA / AUTRES BIENS & SERVICES,14,6,0,,,20221208,,EUR,,,
60,JOURNAL DES ACHATS,600000037,20211127,4456600000,TVA / AUTRES BIENS & SERVICES,,,241,20211127,GEDIMAT,9,84,0,,,20221208,,EUR,,,
60,JOURNAL DES ACHATS,600000037,20211127,401DIVERS,FOURNISSEURS DIVERS,,,241,20211127,GEDIMAT,0,59,6,AAV,20211129,20221208,,EUR,,,



Edit:
Pour trouver les codes hexadécimaux des caractères incriminés, j'ai utilisé ceci :

sed -n '3p' ~/Téléchargements/fec.csv  | hd

00000000  36 30 2c 4a 4f 55 52 4e  41 4c 20 44 45 53 20 41  |60,JOURNAL DES A|
00000010  43 48 41 54 53 2c 36 30  30 30 30 30 30 30 31 2c  |CHATS,600000001,|
00000020  32 30 32 31 31 30 30 31  2c 36 30 31 30 31 30 30  |20211001,6010100|
00000030  30 30 30 2c 41 63 68 61  74 73 20 6d 61 74 2e 31  |000,Achats mat.1|
00000040  ef bf bd 72 65 73 20 73  61 6e 73 20 54 56 41 2c  |...res sans TVA,|
00000050  2c 2c 32 36 30 2c 32 30  32 31 31 30 30 31 2c 41  |,,260,20211001,A|
00000060  63 68 61 74 73 20 6d 61  74 2e 31 ef bf bd 72 65  |chats mat.1...re|
00000070  73 20 73 61 6e 73 20 54  56 41 2c 33 39 33 2c 34  |s sans TVA,393,4|
00000080  2c 30 2c 2c 2c 32 30 32  32 31 32 30 38 2c 2c 45  |,0,,,20221208,,E|
00000090  55 52 2c 2c 2c 0a                                 |UR,,,.|
00000096

Dernière modification par Tawal (27-01-2023 23:36:24)


Comme la science n'est pas infuse, elle se diffuse.
Useless Use of Cat Award
Filenames and Pathnames in Shell: How to do it Correctly
À chaque problème sa solution, à chaque solution son moyen, si pas de moyen, toujours le problème !

Hors ligne

#10 28-01-2023 01:34:02

otyugh
CA Debian-Facile
Lieu : Quimperlé/Arzano
Distrib. : Debian Stable
Inscription : 20-09-2016
Site Web

Re : Identifier le jeu de caractère utilisé ?

Ouais fin' le souci c'était plus que ces deux caractères, et sur 14 entrées ok, mais le fichier fait des dizaines de milliers de ligne ~
Je vais demander autre chose je pense pas que j'arriverai à quoique ce soit de cet extrait.

virtue_signaling.pngpalestine.png

Hors ligne

#11 28-01-2023 10:16:50

Yanatoum
Membre
Lieu : Dyle
Distrib. : Debian Bookworm
Noyau : Linux 6.1.0-13-amd64
(G)UI : xfce
Inscription : 10-07-2016

Re : Identifier le jeu de caractère utilisé ?

Bonjour à Vous,

Je pense à une page de code windows

Fichier .csv reçu de ma banque en 2016 / ouvert avec mousepad

Par défault UTF 8 / The document is not UTF-8 valid
Numro de squence;Date d'excution;Date valeur;Montant;Devise du compte;Dtails;Numro de compte

Si je sélectionne 'autre' ISO-8857-1
Numéro de séquence;Date d'exécution;Date valeur;Montant;Devise du compte;Détails;Numéro de compte

Hors ligne

#12 28-01-2023 10:29:53

Yanatoum
Membre
Lieu : Dyle
Distrib. : Debian Bookworm
Noyau : Linux 6.1.0-13-amd64
(G)UI : xfce
Inscription : 10-07-2016

Re : Identifier le jeu de caractère utilisé ?

Copie d'écran, légèrement différente du message précédent
azj9.png

Hors ligne

#13 28-01-2023 12:23:18

otyugh
CA Debian-Facile
Lieu : Quimperlé/Arzano
Distrib. : Debian Stable
Inscription : 20-09-2016
Site Web

Re : Identifier le jeu de caractère utilisé ?

Si je sélectionne 'autre' ISO-8857-1


Où ?


virtue_signaling.pngpalestine.png

Hors ligne

#14 29-01-2023 09:22:44

Yanatoum
Membre
Lieu : Dyle
Distrib. : Debian Bookworm
Noyau : Linux 6.1.0-13-amd64
(G)UI : xfce
Inscription : 10-07-2016

Re : Identifier le jeu de caractère utilisé ?

Quand j'ouvre le fichier .csv avec mousepad, une fenêtre s'ouvre
apuq.png

Hors ligne

#15 29-01-2023 10:11:03

anonyme
Invité

Re : Identifier le jeu de caractère utilisé ?

Bonjour

=> https://fr.wikipedia.org/wiki/ISO/CEI_8859-1

a priori le 8857-1 n'existe plus
ps: je n'arrive pas au même comportement que Yanatoum avec mousepad , sûrement que je suis pas doué  hmm

Dernière modification par anonyme (29-01-2023 10:37:51)

#16 29-01-2023 10:28:45

Yanatoum
Membre
Lieu : Dyle
Distrib. : Debian Bookworm
Noyau : Linux 6.1.0-13-amd64
(G)UI : xfce
Inscription : 10-07-2016

Re : Identifier le jeu de caractère utilisé ?

Un autre choix est possible, jusqu'à trouver celui qui convient
kszm.png

Hors ligne

#17 29-01-2023 12:51:56

otyugh
CA Debian-Facile
Lieu : Quimperlé/Arzano
Distrib. : Debian Stable
Inscription : 20-09-2016
Site Web

Re : Identifier le jeu de caractère utilisé ?

ps: je n'arrive pas au même comportement que Yanatoum avec mousepad , sûrement que je suis pas doué


Pareil

Dernière modification par otyugh (29-01-2023 12:52:38)


virtue_signaling.pngpalestine.png

Hors ligne

#18 29-01-2023 14:40:27

Yanatoum
Membre
Lieu : Dyle
Distrib. : Debian Bookworm
Noyau : Linux 6.1.0-13-amd64
(G)UI : xfce
Inscription : 10-07-2016

Re : Identifier le jeu de caractère utilisé ?

lol !
Pourtant, je vous promets que ma tour n'hallucine pas sous LSD

Hors ligne

#19 29-01-2023 14:53:59

anonyme
Invité

Re : Identifier le jeu de caractère utilisé ?

mousepad ouvre le fichier comme pluma (mate) , par contre j'ai bien tous les iso  listés mais pour l'enregistrement du fichier a priori .

#20 29-01-2023 19:37:32

anonyme-15
Invité

Re : Identifier le jeu de caractère utilisé ?

Pour info :

iconv -t ISO8859-1 fec.csv



échoue à effectuer la conversion des caractères en cause (il faut ajouter l'option -c pour les virer).

Mais il y a plein de combinaisons possibles. Voir :

iconv -l

#21 29-01-2023 20:28:43

nico34
Adhérent(e)
Distrib. : Bullseye
Noyau : Linux 5.10.0-10-amd64
(G)UI : Xfce
Inscription : 25-07-2016

Re : Identifier le jeu de caractère utilisé ?

Yanatoum a écrit :

lol !
Pourtant, je vous promets que ma tour n'hallucine pas sous LSD



tu n'est pas seul Jeff, j'avais aussi ouvert aussi avec mousepad et eu le même message.
Bizarement j'ai retenté, mais je n'ai plus ce choix aujourd'hui.

avec un chercher/remplacer cela fonctionne aussi sous mousepad - mais si ce n'est pas le seul problème...

Hors ligne

#22 29-01-2023 20:46:17

ubub
Membre
Distrib. : Debian
(G)UI : xfce
Inscription : 14-05-2019

Re : Identifier le jeu de caractère utilisé ?

C'est là qu'y faudrait tester Chat-gpt et voir s'il va inventer un chouette truc ou trouver la réponse ..:D

En ligne

Pied de page des forums