vocab.js 6.9 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209
  1. // librairie de gestion des répertoires et fichiers
  2. const fs = require("fs");
  3. const path = require("path");
  4. const shtooka1 = require('./cmn-caen-tan.json.json');
  5. const shtooka2 = require('./chi-balm.json.json');
  6. const shtooka3 = require('./cmn-balm-congcong.json.json');
  7. const shtooka4 = require('./cmn-balm-hsk1.json.json');
  8. // librairie de gestion des arguments de la ligne de commande
  9. var argv = require("optimist").argv;
  10. // librairie de recherche dans un json
  11. var _ = require('underscore');
  12. // librairie de traitement du pinyin
  13. const pinyinizer = require('pinyinizer');
  14. // librairie de gestion du hanzi
  15. const opencc = require('node-opencc');
  16. // librairie de gestion des fichiers xml
  17. const builder = require('xmlbuilder');
  18. // librairie de gestion des fichiers csv
  19. var csv = require("comma-separated-values");
  20. // données de stockage
  21. var fichierXml = "rudgers-table.xml";
  22. var fichierJson = "rudgers-table.json";
  23. var fichierCSV = "rudgers-table.csv";
  24. // en entrée, on donne le nom du fichier à traiter sans le répertoire
  25. var repertoireInitial = "./";
  26. var argument = argv._[0];
  27. fichierDonnées = path.join(repertoireInitial,argument);
  28. var shtooka1données = shtooka1.shtooka;
  29. var shtooka2données = shtooka2.shtooka;
  30. var shtooka3données = shtooka3.shtooka;
  31. var shtooka4données = shtooka4.shtooka;
  32. // DEBUG
  33. // console.log(fichierDonnées);
  34. // utilitaires
  35. var tab = "\t";
  36. var endLine = "\n";
  37. // Variables fichier des fichiers csv, json et xml
  38. fichierXml = path.join(repertoireInitial, argument + ".xml");
  39. fichierJson = path.join(repertoireInitial, argument + ".json");
  40. fichierCSV = path.join(repertoireInitial, argument + "-1.csv");
  41. // on crée le fichier xml
  42. var feed = builder.create('rudgerstable', {
  43. version: '1.0',
  44. encoding: 'UTF-8',
  45. standalone: true
  46. });
  47. // on crée le fichier csv
  48. var moncsv = fs.createWriteStream(fichierCSV);
  49. // on crée le fichier json
  50. var json = fs.createWriteStream(fichierJson);
  51. json.write('{"rudgers":[');
  52. var fichierATraiter = fs.readFileSync(fichierDonnées, "UTF-8");
  53. // DEBUG
  54. // console.log(fichierATraiter);
  55. var monjson = new csv(fichierATraiter, {
  56. header: ['hanzi', 'pinyin', 'grammar','translation','lesson','origin','sound'],
  57. cast: ['String', 'String','String','String','String','String','String']
  58. }).parse();
  59. // DEBUG inclusion des fichiers json
  60. // console.log(shtooka1données);
  61. // la ligne CSV qu'on va écrire dans le fichier CSV
  62. var ligneCSV = "";
  63. // L'élément xml qui constitue un enregistrement du fichier xml
  64. var ele = null;
  65. // a = liste json
  66. // b = le hanzi à trouver dans la liste ci-dessus(enregistrement.hanzi)
  67. function trouvé(a,b) {
  68. var t = _.find(a, function (record) {
  69. return record.hanzi == b });
  70. return t;
  71. };
  72. monjson.forEach(function(enregistrement){
  73. // DEBUG
  74. // console.log(enregistrement.hanzi);
  75. ligneCSV = "";
  76. ele = null;
  77. try {
  78. // DEBUG: recherche du son correspondant dans la première base
  79. // var results = _.find(shtooka1données, function (record) {
  80. // return record.hanzi == enregistrement.hanzi });
  81. enregistrement.hanzi = enregistrement.hanzi.trim();
  82. enregistrement.hanzi= enregistrement.hanzi.replace(/ /g, "");
  83. enregistrement.locuteur = "";
  84. enregistrement.collectionAudio = "";
  85. tr = trouvé(shtooka1données,enregistrement.hanzi);
  86. if (tr != undefined) {
  87. //console.log("trouvé dans shtooka1 " );
  88. enregistrement.sound = "[sound:" + tr.sound + "]";
  89. enregistrement.locuteur = tr.locuteur;
  90. enregistrement.collectionAudio = "Shtooka-cmn-caen-tan";
  91. } else {
  92. tr = trouvé(shtooka2données,enregistrement.hanzi);
  93. if (tr != undefined) {
  94. //console.log("trouvé dans shtooka2 " );
  95. enregistrement.sound = "[sound:" + tr.sound + "]";
  96. enregistrement.locuteur = tr.locuteur;
  97. enregistrement.collectionAudio = "Shtooka-chi-balm";
  98. } else {
  99. tr = trouvé(shtooka3données,enregistrement.hanzi);
  100. if (tr != undefined) {
  101. //console.log("trouvé dans shtooka3 " );
  102. enregistrement.sound = "[sound:" + tr.sound + "]";
  103. enregistrement.locuteur = tr.locuteur;
  104. enregistrement.collectionAudio = "Shtooka-cmn-balm-congcong";
  105. } else {
  106. tr = trouvé(shtooka4données,enregistrement.hanzi);
  107. if (tr != undefined) {
  108. //console.log("trouvé dans shtooka4 " );
  109. enregistrement.sound = "[sound:" + tr.sound + "]";
  110. enregistrement.locuteur = tr.locuteur;
  111. enregistrement.collectionAudio = "Shtooka-cmn-balm-hsk1";
  112. } else {
  113. // console.log("pas trouvé! On va générer les sons avec Google tts");
  114. var nomFichierAudio = enregistrement.hanzi + ".mp3";
  115. // DEBUG
  116. console.log(nomFichierAudio);
  117. enregistrement.sound = "[sound:" + nomFichierAudio + "]";
  118. enregistrement.locuteur = "Google TTS";
  119. enregistrement.collectionAudio = "";
  120. }
  121. }
  122. }
  123. }
  124. enregistrement.traditional = opencc.simplifiedToTraditional(enregistrement.hanzi);
  125. // DEBUG
  126. //console.log(enregistrement.hanzi, "**", enregistrement.traditional);
  127. // console.log(enregistrement.translation);
  128. // enregistrement.translation = enregistrement.translation.replace(/;/g, " /");
  129. enregistrement.translation = enregistrement.translation.replace(/, /g, " / ");
  130. // if (enregistrement.classifier == "") {
  131. // enregistrement.classifier = "";
  132. // }
  133. // console.log(enregistrement.translation);
  134. ligneCSV = enregistrement.hanzi + tab +
  135. enregistrement.traditional + tab +
  136. enregistrement.pinyin + tab +
  137. enregistrement.translation+ tab +
  138. enregistrement.grammar + tab +
  139. enregistrement.lesson + tab +
  140. enregistrement.sound + tab +
  141. enregistrement.origin + tab +
  142. enregistrement.locuteur + tab +
  143. enregistrement.collectionAudio + tab +
  144. endLine;
  145. // DEBUG console.log(ligneCSV);
  146. // Ecriture de la ligne CSV
  147. moncsv.write(ligneCSV);
  148. // Ecriture de la ligne json
  149. json.write(JSON.stringify(enregistrement) + ",");
  150. var ele = feed.ele({enregistrement});
  151. } catch (err) {
  152. console.log(err);
  153. }
  154. })
  155. // DEBUG
  156. // console.log(monjson);
  157. // Fermeture des fichiers json, xml et csv
  158. // on ferme le fichier CSV
  159. moncsv.end();
  160. // on écrit le fichier xml
  161. fs.writeFileSync(fichierXml, feed.end({
  162. pretty: true
  163. }));
  164. // on écrit le fichier Json
  165. // fs.writeFileSync(fichierJson, JSON.stringify(maineeduObj), "UTF-8");
  166. json.write('{},]}');
  167. json.end();