Jochen Blom
L'augmentation de la production a entraîné une surabondance d'informations, ce qui nécessite des systèmes de stockage de données plus sophistiqués. Les avancées technologiques, de l'invention de l'imprimerie à l'acquisition automatisée de données à partir de l'exploration spatiale, ont provoqué l'explosion des données. Le nombre toujours croissant d'entrepôts de données, à la fois des données difficiles à reproduire et des bandes magnétiques, a attesté de la nécessité de condenser d'une manière ou d'une autre l'étendue des enregistrements tout en conservant leur contenu. La nécessité de freiner l'augmentation des données au-delà de l'explosion des données est devenue importante et le terme big data a été utilisé pour la première fois dans les procès de la conférence sur la visualisation pour décrire cette augmentation des données. Dans ce système, une solution de visualisation hors milieu a été proposée lorsqu'un seul ensemble de données que nous souhaitons visualiser est plus grand que la capacité de la mémoire principale et de la visualisation hors milieu distante alors qu'un seul ensemble de données est plus grand que la capacité de la mémoire locale et du disque. Plusieurs facteurs contribuent à l'augmentation du volume des données. Les enregistrements deviennent une ressource tangible et ne sont pas jetés. En conséquence, les enregistrements basés sur les transactions stockés au fil du temps, les informations non structurées provenant des médias sociaux, les capteurs et les enregistrements système à appareil accumulés contribuent à l'ampleur croissante des statistiques traitées par le biais d'un magasin de détail en ligne. Différentes stratégies telles que l'application de systèmes de stockage à plusieurs niveaux, l'externalisation du contrôle des enregistrements et le profilage des sources d'informations sont suivies. Au-delà, le stockage des données est devenu le problème principal, mais avec la réduction des coûts de stockage, d'autres problèmes apparaissent, comme la manière de déterminer la pertinence dans des volumes de données volumineux et la manière d'utiliser l'analyse pour générer des coûts à partir de données pertinentes.