{"id":3096440,"date":"2025-06-11T19:26:36","date_gmt":"2025-06-11T19:26:36","guid":{"rendered":"https:\/\/www.clicdata.com\/guides\/quest-ce-que-le-parquet\/"},"modified":"2025-09-03T07:16:12","modified_gmt":"2025-09-03T07:16:12","slug":"format-donnees-parquet","status":"publish","type":"guide","link":"https:\/\/www.clicdata.com\/fr\/guides\/format-donnees-parquet\/","title":{"rendered":"Qu&rsquo;est-ce que le format Parquet ?"},"content":{"rendered":"\n<p>Apache Parquet est un format de fichier de stockage en colonnes moderne et open-source, optimis\u00e9 pour les charges de travail analytiques. Con\u00e7u pour traiter efficacement des donn\u00e9es complexes \u00e0 grande \u00e9chelle dans des syst\u00e8mes distribu\u00e9s, Parquet est devenu le format par d\u00e9faut dans les pipelines d&rsquo;ing\u00e9nierie des donn\u00e9es et d&rsquo;analyse sur des plateformes telles que Spark, Hadoop, AWS et Azure. <\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Histoire et origines<\/h2>\n\n\n\n<p>Parquet a \u00e9t\u00e9 d\u00e9velopp\u00e9 en 2013 dans le cadre d&rsquo;un effort conjoint entre Twitter et Cloudera, sur la base du papier Dremel de Google et en s&rsquo;inspirant de son format de <a href=\"https:\/\/www.clicdata.com\/fr\/guides\/quest-ce-quune-base-de-donnees-en-colonnes\/\">stockage interne en colonnes<\/a>. L&rsquo;objectif \u00e9tait de cr\u00e9er un format capable de stocker efficacement des structures de donn\u00e9es imbriqu\u00e9es, de supporter l&rsquo;\u00e9volution des sch\u00e9mas et d&rsquo;offrir des lectures analytiques performantes, le tout dans un standard ouvert. <\/p>\n\n\n\n<p>Depuis sa publication, Parquet est devenu un projet Apache et constitue d\u00e9sormais un \u00e9l\u00e9ment essentiel de l&rsquo;\u00e9cosyst\u00e8me Hadoop, souvent utilis\u00e9 avec Apache Arrow, Apache Hive, Apache Drill et Apache Impala.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Comment fonctionne le parquet<\/h2>\n\n\n\n<p>Parquet stocke les donn\u00e9es dans un format en colonnes, ce qui signifie que toutes les valeurs d&rsquo;une colonne donn\u00e9e sont stock\u00e9es ensemble, plut\u00f4t que ligne par ligne. Cette approche permet une meilleure compression, un filtrage plus rapide et une lecture plus efficace lorsque seul un sous-ensemble de colonnes est n\u00e9cessaire. <\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Concepts cl\u00e9s :<\/h3>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Stockage en colonnes :<\/strong> Permet de lire uniquement les colonnes dont vous avez besoin pour une requ\u00eate, ce qui r\u00e9duit consid\u00e9rablement les entr\u00e9es\/sorties.<\/li>\n\n\n\n<li><strong>Sch\u00e9ma :<\/strong> Les fichiers Parquet comprennent un sch\u00e9ma auto-descriptif stock\u00e9 dans les m\u00e9tadonn\u00e9es, ce qui facilite la gestion et l&rsquo;\u00e9volution des structures de donn\u00e9es.<\/li>\n\n\n\n<li><strong>Pages de donn\u00e9es :<\/strong> Les donn\u00e9es sont stock\u00e9es dans des pages regroup\u00e9es en groupes de lignes, chacune contenant les valeurs d&rsquo;un sous-ensemble de lignes de l&rsquo;ensemble de donn\u00e9es.<\/li>\n\n\n\n<li><strong>Encodages :<\/strong> Utilise le codage par dictionnaire et le codage de longueur d&rsquo;ex\u00e9cution pour r\u00e9duire la taille des fichiers sans sacrifier les performances.<\/li>\n\n\n\n<li><strong>Compression :<\/strong> Supporte divers codecs tels que Snappy, GZIP, Brotli et LZO pour un stockage efficace.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Avantages de l&rsquo;utilisation du parquet<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Hautement compress\u00e9 :<\/strong> La disposition en colonnes de Parquet, combin\u00e9e \u00e0 une compression moderne, permet de r\u00e9duire la taille des fichiers, en particulier pour les valeurs r\u00e9p\u00e9t\u00e9es.<\/li>\n\n\n\n<li><strong>Des lectures efficaces :<\/strong> L&rsquo;\u00e9lagage des colonnes et le repoussage des pr\u00e9dicats r\u00e9duisent le temps de lecture et l&rsquo;utilisation de la m\u00e9moire dans les requ\u00eates.<\/li>\n\n\n\n<li><strong>\u00c9volution du sch\u00e9ma :<\/strong> Compatible avec les changements de sch\u00e9ma en amont et en aval, ce qui le rend fiable pour les ensembles de donn\u00e9es changeants.<\/li>\n\n\n\n<li><strong>Support des donn\u00e9es imbriqu\u00e9es :<\/strong> Contrairement \u00e0 CSV ou JSON, Parquet g\u00e8re les structures imbriqu\u00e9es en utilisant un format appel\u00e9 r\u00e9p\u00e9tition et des niveaux de d\u00e9finition.<\/li>\n\n\n\n<li><strong>Agnostique :<\/strong> fonctionne sur les plateformes cloud (AWS S3, Azure Blob, Google Cloud Storage) et les moteurs d&rsquo;analyse (Spark, Presto, Athena).<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Parquet vs. autres formats<\/h2>\n\n\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><thead><tr><th>Fonctionnalit\u00e9<\/th><th>Parquet<\/th><th>CSV<\/th><th>JSON<\/th><th>Avro<\/th><\/tr><\/thead><tbody><tr><td>Type de stockage<\/td><td>Colonnes<\/td><td>Bas\u00e9 sur les rangs<\/td><td>Bas\u00e9 sur les rangs<\/td><td>Bas\u00e9 sur les rangs<\/td><\/tr><tr><td>Compression<\/td><td>Excellent<\/td><td>Pauvre<\/td><td>Pauvre<\/td><td>Bon<\/td><\/tr><tr><td>Support des sch\u00e9mas<\/td><td>Oui (dans le dossier)<\/td><td>Non<\/td><td>Partiel<\/td><td>Oui<\/td><\/tr><tr><td>Donn\u00e9es imbriqu\u00e9es<\/td><td>Oui<\/td><td>Non<\/td><td>Oui<\/td><td>Oui<\/td><\/tr><tr><td>Meilleur cas d&rsquo;utilisation<\/td><td>Analyse<\/td><td>Exportations<\/td><td>API<\/td><td>Streaming<\/td><\/tr><\/tbody><\/table><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Cas d&rsquo;utilisation courants<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Data warehouse :<\/strong> Stockage de grands ensembles de donn\u00e9es analytiques dans un format compress\u00e9 et efficace pour les requ\u00eates.<\/li>\n\n\n\n<li><strong>Cloud Analytics :<\/strong> Utilis\u00e9 avec des services comme AWS Athena, Google BigQuery, Azure Synapse pour des requ\u00eates sans serveur.<\/li>\n\n\n\n<li><strong>Pipelines ETL :<\/strong> Stockage interm\u00e9diaire pour les pipelines \u00e0 haut d\u00e9bit utilisant Apache Spark ou AWS Glue.<\/li>\n\n\n\n<li><strong>Apprentissage automatique :<\/strong> En tant qu&rsquo;ensembles de donn\u00e9es de formation en raison de l&rsquo;efficacit\u00e9 de la performance de l&rsquo;analyse.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Outils qui supportent Parquet<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Moteurs :<\/strong> Apache Spark, Hive, Presto, Trino, Impala, Drill, BigQuery<\/li>\n\n\n\n<li><strong>Cloud :<\/strong> AWS Athena, S3 Select, Azure Data Lake, Google Cloud Storage.<\/li>\n\n\n\n<li><strong>Langues :<\/strong> Python (pyarrow, pandas), R, Java, Scala, C++<\/li>\n\n\n\n<li><strong>Visualiseurs de fichiers :<\/strong> parquet-tools, DuckDB, DataGrip, Jupyter Notebooks<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Meilleures pratiques<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Utilisez la compression <strong>Snappy<\/strong> pour trouver un \u00e9quilibre entre vitesse et taille.<\/li>\n\n\n\n<li>Optimisez la <strong>taille des groupes de lignes<\/strong> (par exemple, 128 Mo) pour les lectures volumineuses.<\/li>\n\n\n\n<li>R\u00e9partissez les ensembles de donn\u00e9es en fonction de champs de filtrage communs (par exemple, date, r\u00e9gion) pour une recherche plus rapide.<\/li>\n\n\n\n<li>\u00c9vitez d&rsquo;\u00e9crire de nombreux petits fichiers Parquet &#8211; fusionnez-les en un petit nombre de gros fichiers pour \u00e9viter les probl\u00e8mes de performance.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">En r\u00e9sum\u00e9<\/h2>\n\n\n\n<p>Parquet est le <a href=\"https:\/\/www.clicdata.com\/fr\/guides\/choisir-le-bon-format-de-fichier-de-donnees-pour-lanalyse-lintegration-et-le-stockage\/\" data-type=\"guide\" data-id=\"3096073\">format pr\u00e9f\u00e9r\u00e9<\/a> pour le stockage et l&rsquo;analyse d&rsquo;ensembles de donn\u00e9es massifs de mani\u00e8re performante, \u00e9volutive et rentable. Son architecture en colonnes, sa compression efficace et sa compatibilit\u00e9 avec les piles de donn\u00e9es modernes en font la pierre angulaire de l&rsquo;ing\u00e9nierie des donn\u00e9es en nuage. <\/p>\n\n\n\n<p>Si votre charge de travail implique des analyses, des rapports ou de l&rsquo;apprentissage automatique, Parquet est souvent le meilleur choix par d\u00e9faut pour le stockage et les performances.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">FAQ sur le parquet<\/h2>\n\n\n\n<div class=\"wp-block-wpseopress-faq-block-v2 is-layout-flow wp-block-wpseopress-faq-block-v2-is-layout-flow\">\n<details id=\"pourquoi-parquet-est-il-prefere-a-csv-ou-json-pour-lanalyse\" class=\"wp-block-details is-layout-flow wp-block-details-is-layout-flow\"><summary><strong>Pourquoi Parquet est-il pr\u00e9f\u00e9r\u00e9 \u00e0 CSV ou JSON pour l&rsquo;analyse ?<\/strong><\/summary>\n<p>Contrairement aux formats bas\u00e9s sur des lignes tels que CSV ou JSON, le stockage en colonnes de Parquet permet une compression efficace, un \u00e9lagage des colonnes et des requ\u00eates analytiques plus rapides. Cela permet de r\u00e9duire les co\u00fbts de stockage et d&rsquo;am\u00e9liorer les performances pour les charges de travail \u00e0 grande \u00e9chelle. <\/p>\n<\/details>\n\n\n\n<details id=\"comment-parquet-gere-t-il-levolution-des-schemas-et-les-donnees-imbriquees\" class=\"wp-block-details is-layout-flow wp-block-details-is-layout-flow\"><summary><strong>Comment Parquet g\u00e8re-t-il l&rsquo;\u00e9volution des sch\u00e9mas et les donn\u00e9es imbriqu\u00e9es ?<\/strong><\/summary>\n<p>Parquet int\u00e8gre des m\u00e9tadonn\u00e9es de sch\u00e9ma directement dans le fichier, supportant les modifications de sch\u00e9ma r\u00e9trocompatibles et prospectives. Il supporte \u00e9galement de mani\u00e8re native les structures de donn\u00e9es imbriqu\u00e9es \u00e0 l&rsquo;aide de niveaux de r\u00e9p\u00e9tition et de d\u00e9finition, ce qui le rend plus flexible que CSV ou JSON. <\/p>\n<\/details>\n\n\n\n<details id=\"quelles-sont-les-meilleures-pratiques-pour-optimiser-les-fichiers-parquet\" class=\"wp-block-details is-layout-flow wp-block-details-is-layout-flow\"><summary><strong>Quelles sont les meilleures pratiques pour optimiser les fichiers Parquet ?<\/strong><\/summary>\n<p>Utilisez la compression Snappy pour \u00e9quilibrer la vitesse et la taille du fichier, partitionnez les ensembles de donn\u00e9es par des filtres de cardinalit\u00e9 \u00e9lev\u00e9e comme la date ou la r\u00e9gion, et \u00e9vitez de g\u00e9n\u00e9rer trop de petits fichiers en les fusionnant dans des groupes de lignes plus importants (par exemple, ~128MB).<\/p>\n<\/details>\n\n\n\n<details id=\"quels-sont-les-outils-et-les-plates-formes-qui-supportent-parquet\" class=\"wp-block-details is-layout-flow wp-block-details-is-layout-flow\"><summary><strong>Quels sont les outils et les plates-formes qui supportent Parquet ?<\/strong><\/summary>\n<p>Parquet est largement support\u00e9 par les piles de donn\u00e9es modernes : des moteurs comme Spark, Hive, Presto, Trino et Impala ; des services cloud comme AWS Athena, Google BigQuery et Azure Synapse ; et des langages de programmation comme Python (pandas, PyArrow), R, Java et Scala.<\/p>\n<\/details>\n<script type=\"application\/ld+json\">{\"@context\":\"https:\/\/schema.org\",\"@type\":\"FAQPage\",\"url\":\"https:\/\/www.clicdata.com\/fr\/guides\/format-donnees-parquet\/\",\"@id\":\"https:\/\/www.clicdata.com\/fr\/guides\/format-donnees-parquet\/\",\"mainEntity\":[{\"@type\":\"Question\",\"url\":\"https:\/\/www.clicdata.com\/fr\/guides\/format-donnees-parquet\/#pourquoi-parquet-est-il-prefere-a-csv-ou-json-pour-lanalyse\",\"name\":\"Pourquoi Parquet est-il pr\u00e9f\u00e9r\u00e9 \u00e0 CSV ou JSON pour l'analyse ?\",\"answerCount\":1,\"acceptedAnswer\":{\"@type\":\"Answer\",\"text\":\"&lt;p>Contrairement aux formats bas\u00e9s sur des lignes tels que CSV ou JSON, le stockage en colonnes de Parquet permet une compression efficace, un \u00e9lagage des colonnes et des requ\u00eates analytiques plus rapides. Cela permet de r\u00e9duire les co\u00fbts de stockage et d'am\u00e9liorer les performances pour les charges de travail \u00e0 grande \u00e9chelle. &lt;\/p>\"}},{\"@type\":\"Question\",\"url\":\"https:\/\/www.clicdata.com\/fr\/guides\/format-donnees-parquet\/#comment-parquet-gere-t-il-levolution-des-schemas-et-les-donnees-imbriquees\",\"name\":\"Comment Parquet g\u00e8re-t-il l'\u00e9volution des sch\u00e9mas et les donn\u00e9es imbriqu\u00e9es ?\",\"answerCount\":1,\"acceptedAnswer\":{\"@type\":\"Answer\",\"text\":\"&lt;p>Parquet int\u00e8gre des m\u00e9tadonn\u00e9es de sch\u00e9ma directement dans le fichier, supportant les modifications de sch\u00e9ma r\u00e9trocompatibles et prospectives. Il supporte \u00e9galement de mani\u00e8re native les structures de donn\u00e9es imbriqu\u00e9es \u00e0 l'aide de niveaux de r\u00e9p\u00e9tition et de d\u00e9finition, ce qui le rend plus flexible que CSV ou JSON. &lt;\/p>\"}},{\"@type\":\"Question\",\"url\":\"https:\/\/www.clicdata.com\/fr\/guides\/format-donnees-parquet\/#quelles-sont-les-meilleures-pratiques-pour-optimiser-les-fichiers-parquet\",\"name\":\"Quelles sont les meilleures pratiques pour optimiser les fichiers Parquet ?\",\"answerCount\":1,\"acceptedAnswer\":{\"@type\":\"Answer\",\"text\":\"&lt;p>Utilisez la compression Snappy pour \u00e9quilibrer la vitesse et la taille du fichier, partitionnez les ensembles de donn\u00e9es par des filtres de cardinalit\u00e9 \u00e9lev\u00e9e comme la date ou la r\u00e9gion, et \u00e9vitez de g\u00e9n\u00e9rer trop de petits fichiers en les fusionnant dans des groupes de lignes plus importants (par exemple, ~128MB).&lt;\/p>\"}},{\"@type\":\"Question\",\"url\":\"https:\/\/www.clicdata.com\/fr\/guides\/format-donnees-parquet\/#quels-sont-les-outils-et-les-plates-formes-qui-supportent-parquet\",\"name\":\"Quels sont les outils et les plates-formes qui supportent Parquet ?\",\"answerCount\":1,\"acceptedAnswer\":{\"@type\":\"Answer\",\"text\":\"&lt;p>Parquet est largement support\u00e9 par les piles de donn\u00e9es modernes : des moteurs comme Spark, Hive, Presto, Trino et Impala ; des services cloud comme AWS Athena, Google BigQuery et Azure Synapse ; et des langages de programmation comme Python (pandas, PyArrow), R, Java et Scala.&lt;\/p>\"}}]}<\/script><\/div>\n","protected":false},"featured_media":0,"menu_order":0,"template":"","meta":{"_acf_changed":false,"_seopress_robots_primary_cat":"","_seopress_titles_title":"Comprendre le format de donn\u00e9es Parquet | ClicData Data Guides","_seopress_titles_desc":"Optimisez vos analyses avec le stockage en colonnes efficace d'Apache Parquet, parfait pour les big data sur Spark, Hadoop et les plateformes cloud. En savoir plus !","_seopress_robots_index":""},"guide-section":[100583],"class_list":["post-3096440","guide","type-guide","status-publish","hentry","guide-section-data-file-formats-fr"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.clicdata.com\/fr\/wp-json\/wp\/v2\/guide\/3096440","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.clicdata.com\/fr\/wp-json\/wp\/v2\/guide"}],"about":[{"href":"https:\/\/www.clicdata.com\/fr\/wp-json\/wp\/v2\/types\/guide"}],"wp:attachment":[{"href":"https:\/\/www.clicdata.com\/fr\/wp-json\/wp\/v2\/media?parent=3096440"}],"wp:term":[{"taxonomy":"guide-section","embeddable":true,"href":"https:\/\/www.clicdata.com\/fr\/wp-json\/wp\/v2\/guide-section?post=3096440"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}