123456789101112131415161718192021222324 |
- programme de scrap des données de Maine.edu
- I y a 6 versions différentes suivant les pages
- les pages: c*, douying*, douzhong*, e*, p*, s*
- La partie qui concerne les enregistrements audio est identiques pour tous.
- seule la première partie change.
- Le programme va faire plusieurs choses en même temps:
- 1) Scanner les pages
- 2) Extraite les "rows" de chaque page html
- 3) Créer un objet avec chaque rows
- 4) Créer un fichier json avec tous les enregistrements
- Structure du json: voir maineedu.json
- 5) Créer un fichier xml avec tous les enregistrements
- Structure du xml: voir maineedu.xml avec la dtd correspondante
- 6) Créer une base de données avec tous les enregistrements
- Structure de la base de données:
|