description.txt 742 B

123456789101112131415161718192021222324
  1. programme de scrap des données de Maine.edu
  2. I y a 6 versions différentes suivant les pages
  3. les pages: c*, douying*, douzhong*, e*, p*, s*
  4. La partie qui concerne les enregistrements audio est identiques pour tous.
  5. seule la première partie change.
  6. Le programme va faire plusieurs choses en même temps:
  7. 1) Scanner les pages
  8. 2) Extraite les "rows" de chaque page html
  9. 3) Créer un objet avec chaque rows
  10. 4) Créer un fichier json avec tous les enregistrements
  11. Structure du json: voir maineedu.json
  12. 5) Créer un fichier xml avec tous les enregistrements
  13. Structure du xml: voir maineedu.xml avec la dtd correspondante
  14. 6) Créer une base de données avec tous les enregistrements
  15. Structure de la base de données: