Arrow/fr
Apache Arrow est une plateforme de développement multilangage pour la gestion des données en mémoire. Elle utilise un format standardisé en colonnes qui organise les données hiérarchiques ou autres afin de permettre des opérations analytiques efficaces. La plateforme offre des bibliothèques de calcul, la transmission sans copie et en continu des données et la communication interprocessus. Parmi les langages pris en charge, on compte C, C++, C#, Go, Java, JavaScript, MATLAB, Python, R, Ruby et Rust.
CUDA¶
Arrow est aussi disponible avec CUDA.
où X.Y.Z désigne la version.Bindings Python¶
Le module contient des bindings pour plusieurs versions de Python. Pour connaître les versions compatibles, lancez
où X.Y.Z désigne la version.Ou cherchez pyarrow directement avec
PyArrow¶
Les bindings Python (appelés PyArrow) s’intègrent avec les objets de première classe NumPy, Pandas, et les objets natifs Python. Ils sont basés sur l'implémentation C++ de Arrow.
-
Chargez les modules requis.
où X.Y.Z désigne la version. -
Importez PyArrow.
Vérification
L’importation est réussie si rien n’est affiché.
Pour plus d'information, consultez la documentation Python.
Autres paquets Python dépendants¶
L'installation de certains paquets Python est dépendante de PyArrow.
Une fois le module arrow chargé, la dépendance à pyarrow sera satisfaite.
Note
Si pip list affiche une entrée, alors pyarrow est disponible et reconnu par pip. Sinon, si aucune entrée n'est affichée, pyarrow n'est pas disponible.
Format Apache Parquet¶
Le format de fichier Parquet est disponible.
Pour importer le module Parquet, effectuez les étapes pour pyarrow ci-dessus et lancez ensuite
Vérification
L’importation est réussie si rien n’est affiché.
Bindings R¶
Arrow possède une interface avec la bibliothèque Arrow C++ pour permettre l'accès en R de plusieurs de ses fonctionnalités. Ceci inclut l’analyse de grands ensembles de données multifichiers (open_dataset()); la capacité de travailler avec des fichiers individuels de format Parquet (read_parquet(), write_parquet()) et Feather (read_feather(), write_feather()); l'accès à la mémoire et aux messages Arrow.
Installation¶
-
Chargez les modules requis.
-
Spécifiez le répertoire d’installation local.
-
Exportez les variables requises pour vous assurer d’utiliser l'installation du système.
-
Installez les bindings.
Utilisation¶
Une fois les bindings installés, il faut les charger.
-
Chargez les modules requis.
-
Chargez la bibliothèque.
Pour plus d'information, consultez la documentation Arrow sur R.
Dépannage¶
Ceci est une erreur normale générée par cette roue factice.¶
Consultez Ceci est une erreur normale générée par cette roue factice.
ModuleNotFoundError: No module named 'pyarrow'¶
Lors de l'importation de pyarrow, l'erreur suivante peut survenir :
Traceback (most recent call last):
File "<string>", line 1, in <module>
ModuleNotFoundError: No module named 'pyarrow'
Cela signifie généralement l'un des deux cas suivants : 1. Le module Arrow n'est pas chargé 2. Le module Python n'est pas chargé
Le module Arrow n'est pas chargé¶
Trouvez un module arrow compatible et chargez-le. Voir PyArrow.
Le module Python n'est pas chargé¶
Lorsque vous omettez de charger un module Python, et que vous activez un environnement virtuel, les bindings Python ne seront pas disponibles, ce qui fera que pyarrow ne sera pas reconnu.
Pour y remédier :
-
Désactivez tout environnement virtuel Python.
Note importante
Si vous aviez un environnement virtuel activé, il est important de le désactiver d'abord, puis de charger le module, avant de réactiver votre environnement virtuel.
-
Chargez le module.
-
Vérifiez qu'il est visible par
et est accessible pour votre module Python actuellement chargé.pip
Succès
Si aucune erreur n'est affichée, alors tout est en ordre!