Quand on opte pour le partitionnement et le bucketing dans la ruche ?

Table des matières:

Quand on opte pour le partitionnement et le bucketing dans la ruche ?
Quand on opte pour le partitionnement et le bucketing dans la ruche ?

Vidéo: Quand on opte pour le partitionnement et le bucketing dans la ruche ?

Vidéo: Quand on opte pour le partitionnement et le bucketing dans la ruche ?
Vidéo: On se prépare pour aller à la soirée de notre pire ennemie 🤣  2024, Mars
Anonim

Le partitionnement Hive et le Bucketing sont, lorsque nous faisons le partitionnement, nous créons une partition pour chaque valeur unique de la colonne Mais il peut y avoir des situations où nous devons créer beaucoup de minuscules cloisons. Mais si vous utilisez le bucketing, vous pouvez le limiter à un nombre que vous choisissez et décomposer vos données dans ces buckets.

Quand utilisons-nous le partitionnement et le bucketing dans Hive ?

Partitionnement aide à l'élimination des données, s'il est utilisé dans la clause WHERE, où le bucketing aide à organiser les données de chaque partition en plusieurs fichiers, de sorte que le même ensemble de données est toujours écrit dans le même seau. Aide beaucoup à joindre les colonnes.

Quand dois-je utiliser le bucketing Hive ?

Le regroupement dans la ruche est utile lorsqu'il s'agit de grands ensembles de données qui peuvent devoir être séparés en clusters pour une gestion plus efficace et pour pouvoir effectuer des requêtes de jointure avec d'autres grands ensembles de données. Le principal cas d'utilisation consiste à joindre deux grands ensembles de données impliquant des contraintes de ressources telles que des limites de mémoire.

Pouvons-nous partitionner et compartimenter sur la même colonne ?

Pour conclure, vous pouvez partitionner et utiliser le bucketing pour stocker les résultats d'une même requête CTAS Ces techniques d'écriture de données ne s'excluent pas. Généralement, les colonnes que vous utilisez pour le bucketing diffèrent de celles que vous utilisez pour le partitionnement. … Vous pouvez stocker ses données dans plusieurs compartiments dans Amazon S3.

Pouvons-nous utiliser le bucketing sans partitionner dans Hive ?

Bucketing peut également être effectué même sans partitionnement sur les tables Hive. Les tables compartimentées permettent un échantillonnage beaucoup plus efficace que les tables non compartimentées. Autoriser les requêtes sur une section de données à des fins de test et de débogage lorsque les ensembles de données d'origine sont très volumineux.

Conseillé: