1 - J'ai besoin de traiter des fichiers d'un volume d'un million de caractères environ.
2 - Un fichier appartient à une langue donnée (français, Allemand, Anglais...).
3 - La question est de pouvoir se déplacer très rapidement dans n'importe qu'elle partie du texte au caractère près ou sur la recherche d'une occurence particulière (un mot ou plusieurs...).
4 - Cette recherche doit se répéter une très grande quantité à la fois car elle est incluse dans des boucles d'analyses statistiques d'occurences complexes.
5 - Question :
Qu'elle type de structure de fichier puis de traitement des données adopter ?
Je pense qu'il me faut éviter trop d'accès disque et travailler le plus possible en RAM.
Merci pour vos conseils!
jlmcom