Ce qui reste à faire
- transformer en json, xml, csv propres: fait
- rajouter le hanzi traditionel: fait
- couper en leçons (fait sur le portable boulot): fait
- Extraire le vocabulaire et le traiter en json, xml, csv
- normaliser le pinyin et le hanzi (pinyin syllabique, et hanzi normalisé sans espaces: fait