Filtrer les symboles indésirables#50
Filtrer les symboles indésirables#50dbsaymen wants to merge 2 commits intocommon-voice:masterfrom dbsaymen:filter_data
Conversation
| (re.compile(r'(\s|^)0(\s|$|,)'), r'\g<1>zéro\g<2>'), | ||
| (re.compile(r'(\s|^)0(\s|$|,)'), r'\g<1>zéro\g<2>'), | ||
| ] | ||
| FILTER_SYMBOLES_REG=re.compile(r'[\{\}\[\]«»_\|\(\)\\…(^—)=&\*/µ#’@℗`~¹½¼¾¿º±↨↑↓▼→▲←↔∟§°‼¸‰‘¶“”•—´☺☻♥♦♠♣•◘○◙♂►♀☼♫♪¢¦Ξ≈˜†√ƒοΔδΛΓκιςζυσρΣγτθΘφΦηχξβωγΩΨ◊░▒▓│├╚┼┬┴└┐┤╝╗╬╣║ßÞ═™›³ª¯¬®]+') |
There was a problem hiding this comment.
Haha, on a tout ça, ou t'as généré une liste au cas où?
There was a problem hiding this comment.
hhh j'ai commencé par des symboles qui existe déja puis j'ajoute d'autres au cas où
There was a problem hiding this comment.
- Les simples quotes (littéraires) ne doivent pas être strippées. Nombre de phrases en dépendent lourdement et deviendraient illisibles sans elles.
- Les doubles quotes (littéraires) (2239) : Je suggérerais d'uniformiser sur les double-quote anglaises mais sans stripper. Je pense qu'elles aident à la lecture plus qu'elles ne la gêne. Ex:
On parle alors de “taux spécial”ouUn jour, ils seront réunis dans un jardin, appelé “le jardin des âges”. - Les & : doivent être substitués par "et", exemple (
Cocktail & Culture). 700 phrases deviendraient illisibles sans eux. Cas particulier, les expressions telles queTara Sports & Entertainmentse disentTara Sports and Entertainment. Je pense qu'il faut donc les préserver. - Les ß : 239 noms propres allemands. Je suis d'avis de tout bonne supprimer ces phrases où à défaut de remplacer par "ss".
- Les — (dashes littéraires) : Ambigu. 2253 occurrences. Parfois utilisé comme séparateur comme
-, exSaskatoon—Rosetown—Biggarmais le plus souvent comme césureIl reliait les fortifications — aujourd’hui disparues — de la villetelle une parenthèse et le plus souvent une virgule. Quelque soit le décision, ce n'est pas à supprimer. - ω et multiples autres lettres grecques (251): A remplacer par "omega" sans quoi les phrases deviennent incompréhensibles. Ex:
Par exemple, le type d'ordre des nombres naturels est ω.ouIl utilise bien sûr également la notation ∼, mais jamais ω ou Θ - Pour les symboles, à supprimer je dirais. Ex:
Le symbole † indique un taxon éteint. - Les = (100) : Supprimer les phrases. Elle sont le plus souvent incompréhensibles. Ex:
==JOURNEE un SCENE un== Le bord de la Tamise.ouBas latin traucum = trou, d’origine gauloise. Parfois remplacer par "égal" aurait eu du sens, eg:Quand K=R, elle fournit aussi des informations sur le groupe de Lie associémais identifier ces cas est impossible. - Les 5694 … : À supprimer en fin de phrase (ils n'apportent pas grand chose en prononciation). Eg:
Très vite, la fête dégénère…. Ils indiquent parfois une phrase inadéquate (coupure), eg:Cette panne est née ….. En milieu de phrase, il indique une pause utile à la diction, ex:Mais, en vain… Esseulé et démuni, André dissimule ses problèmes à sa famille. - Les 164 () peuvent se substituer par des virgules dans certains cas mais elles sont largement utilisées pour les didascalies (assemblée-nationale) et certaines adresses.
- Le ° et º (93) peut être remplacé par "numéro" lorsque précédé d'un "n". Autrement, la phrase devrait être supprimée complètement (ex
douzeºpourdouzième). - Le reste (229 occurrences) indique systématiquement des phrases à supprimer. Formule mathématique, OCR/template ou formatage erroné,
|
On parle de filtrer les symboles avant de proposer les phrases aux utilisateurs. Ne serait-il pas plus judicieux de conserver certains de ces symboles dans le voice-collector, mais de les filtrer au moment de l'entraînement. Les parenthèses ou les accolades par exemple, ont un rôle de ponctuation (et donc d'intonation) parfois important. |
L'expérience a montré le contraire :
On a vraiment besoin que les données présentées aux personnes qui s'enregistrent soient non ambigûes, parce que quelque chose d'ambigu ça va dégrader la qualité de la reconnaissance par la suite : si on a des caractères surnuméraires (les symboles dont tu parles précédemment) qui sont aléatoirement prononcés ou pas, ça va apprendre n'importe comment. |
|
Ok. Donc in-fine, les phrases non-strippées déjà importées actuellement continueront d'être proposées aux utilisateurs, avec les ambiguïtés que cela représente. Sur cette PR (comme sur d'autres issues relatives aux typos), semble se poser la question de la facilité à supprimer des phrases une fois qu'elles sont dans la DB du sentence-collector. Pourtant, d'après https://github.com/common-voice/sentence-collector/ les phrases ont toutes un Sentence.ID qui devrait permettre leur mise à jour. Dans le cas suppression/réimport:
Dans le cas mise-à-jour (qui semble possible étant donné que ces transformation ne devaient pas rendre caduques les clips déjà enregistrées), il doit y avoir des script qui font ça, n'est-ce pas ? |
No description provided.