Effectuez une mise à niveau vers Microsoft Edge pour tirer parti des dernières fonctionnalités, des mises à jour de sécurité et du support technique.
Télécharger Microsoft Edge
Plus d’informations sur Internet Explorer et Microsoft Edge
Représente une ressource permettant d’explorer, de transformer et de gérer les données dans Azure Machine Learning.
Dataset.File.from_files()
Vous pouvez également créer un nouvel objet TabularDataset ou FileDataset en appelant directement les méthodes de fabrique correspondantes de la classe définie dans
TabularDatasetFactory
et
FileDatasetFactory
.
L’exemple suivant montre comment créer un TabularDataset pointant vers un chemin d’accès unique dans un magasin de données.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
Un exemple complet est disponible sur
https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb
Variables
azureml.core.Dataset.File
Attribut de classe qui donne accès aux méthodes FileDatasetFactory pour créer de nouveaux objets FileDataset. Utilisation : Dataset.File.from_files().
Analyse le ou les fichiers dans le chemin d’accès spécifié et renvoie un nouveau jeu de données.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Il est recommandé d’utiliser les méthodes Dataset.Tabular.from_* pour lire les fichiers. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Compare le profil du jeu de données actuel avec celui d’un autre jeu de données.
Cela révèle les différences de statistiques récapitulatives entre deux jeux de données. Le paramètre « rhs_dataset » signifie « jeu de données de droite ». Il s’agit simplement du deuxième jeu de données. Le premier jeu de données (l’objet actuel) est considéré comme le jeu de données « de gauche ».
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Déconseille un jeu de données actif dans un espace de travail en le remplaçant par un autre jeu de données.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
Crée un jeu de données en mémoire non-inscrit à partir d’une trame de données Pandas.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Utilisez plutôt Dataset.Tabular.register_pandas_dataframe. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Récupère un jeu de données qui existe déjà dans l’espace de travail en spécifiant son nom ou son ID.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Utilisez plutôt
get_by_name
et
get_by_id
. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Récupère des statistiques récapitulatives sur le jeu de données calculé précédemment.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Extrait le nombre spécifié d’enregistrements à partir de ce jeu de données et les renvoie sous forme de trame de données.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Répertorie tous les jeux de données de l’espace de travail, y compris ceux dont la propriété
is_visible
est False.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Utilisez plutôt
get_all
. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Inscrit le jeu de données dans l’espace de travail, ce qui le met à disposition des autres utilisateurs de l’espace de travail.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Utilisez plutôt
register
. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Génère un nouvel échantillon à partir du jeu de données source, en utilisant la stratégie d’échantillonnage et les paramètres fournis.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Créez un jeu de données
TabularDataset
en appelant les méthodes statiques de Dataset.Tabular et utilisez la méthode
take_sample
. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Crée une trame de données Pandas en exécutant le pipeline de transformation défini par cette définition de jeu de données.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Créez un jeu de données
TabularDataset
en appelant les méthodes statiques de Dataset.Tabular et utilisez la méthode
to_pandas_dataframe
. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Crée une trame de données Spark qui peut exécuter le pipeline de transformation défini par cette définition de jeu de données.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Créez un jeu de données
TabularDataset
en appelant les méthodes statiques de Dataset.Tabular et utilisez la méthode
to_spark_dataframe
. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Met à jour les attributs modifiables du jeu de données dans l’espace de travail, et renvoie le jeu de données mis à jour à partir de l’espace de travail.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
Remarques
Après l’archivage, toute tentative de consommation du jeu de données génère une erreur.
S’il est archivé par accident, la réactivation l’activera.
Analyse le ou les fichiers dans le chemin d’accès spécifié et renvoie un nouveau jeu de données.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Il est recommandé d’utiliser les méthodes Dataset.Tabular.from_* pour lire les fichiers. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
static auto_read_files(path, include_path=False, partition_format=None)
Paramètres
DataReference
ou
Obligatoire
Chemin de données d’un magasin de données inscrit, chemin d’accès local ou URL HTTP (CSV/TSV).
include_path
Obligatoire
Indique s’il faut inclure une colonne contenant le chemin d’accès au fichier à partir duquel les données ont été lues.
Utile lorsque vous lisez plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier.
Également utile si vous souhaitez que certaines informations figurant dans le chemin d’accès ou le nom du fichier apparaissent dans une colonne.
partition_format
Obligatoire
Spécifie le format de partition dans le chemin d’accès, et crée des colonnes de type chaîne au format « {x} » et une colonne DateHeure au format « {x:yyyy/MM/dd/HH/mm/ss} », où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et la seconde pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier.
Par exemple, à partir d’un chemin d’accès de fichier « ../Accounts/2019/01/01/data.csv » où les données sont partitionnées par nom de service et par heure, nous pouvons définir « /{Department}/{PartitionDate:yyyy/MM/dd}/data.csv » pour créer des colonnes « Department » de type chaîne et « PartitionDate » de type DateHeure.
Retours
Objet de jeu de données.
Type de retour
Dataset
Remarques
Utilisez cette méthode lorsque vous souhaitez que les formats de fichiers et les délimiteurs soient détectés automatiquement.
Après avoir créé un jeu de données, vous devez utiliser
get_profile
pour répertorier les types de colonnes détectés et les statistiques récapitulatives de chaque colonne.
Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.
Compare le profil du jeu de données actuel avec celui d’un autre jeu de données.
Cela révèle les différences de statistiques récapitulatives entre deux jeux de données. Le paramètre « rhs_dataset » signifie « jeu de données de droite ». Il s’agit simplement du deuxième jeu de données. Le premier jeu de données (l’objet actuel) est considéré comme le jeu de données « de gauche ».
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Paramètres
rhs_dataset
Dataset
Obligatoire
Deuxième jeu de données, également appelé jeu de données « de droite », pour comparaison.
profile_arguments
Obligatoire
Arguments permettant de récupérer un profil spécifique.
include_columns
list
[
str
]
Obligatoire
Liste des noms de colonnes à inclure dans la comparaison.
exclude_columns
list
[
str
]
Obligatoire
Liste des noms de colonnes à exclure de la comparaison.
histogram_compare_method
HistogramCompareMethod
Obligatoire
Énumération décrivant la méthode de comparaison, par exemple : Wasserstein ou Energy
Retours
Différence entre les deux profils de jeux de données.
Type de retour
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
Remarques
Cela concerne uniquement les jeux de données inscrits.
Génère une exception si le profil du jeu de données actuel n’existe pas.
Pour les jeux de données non-inscrits, utilisez la méthode profile.compare.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Paramètres
snapshot_name
Obligatoire
Nom de l’instantané. Les noms des instantanés doivent être uniques au sein d’un jeu de données.
compute_target
Union
[
ComputeTarget
,
str
]
Obligatoire
Cible de calcul facultative pour procéder à la création du profil d’instantané.
En cas d’omission, le calcul local est utilisé.
create_data_snapshot
Obligatoire
Si la valeur est True, une copie matérialisée des données est créée.
target_datastore
Union
[
AbstractAzureStorageDatastore
,
str
]
Obligatoire
Magasin de données cible pour l’enregistrement de l’instantané.
En cas d’omission, l’instantané est créé dans le stockage par défaut de l’espace de travail.
Retours
Objet d’instantané de jeu de données.
Type de retour
DatasetSnapshot
Remarques
Les instantanés capturent des statistiques récapitulatives des données sous-jacentes à un moment précis ainsi qu’une copie facultative des données elles-mêmes. Pour en savoir plus sur la création d’instantanés, consultez
https://aka.ms/azureml/howto/createsnapshots
.
Déconseille un jeu de données actif dans un espace de travail en le remplaçant par un autre jeu de données.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
deprecate(deprecate_by_dataset_id)
Paramètres
deprecate_by_dataset_id
Obligatoire
ID du jeu de données destiné à remplacer ce jeu de données.
Retours
Aucun.
Type de retour
Remarques
Les jeux de données déconseillés consignent des avertissements lorsqu’ils sont consommés. Lorsqu’un jeu de données est déconseillé, toutes ses définitions le sont également.
Les jeux de données déconseillés peuvent toujours être consommés. Pour empêcher la consommation complète d’un jeu de données, archivez-le.
S’il est déconseillé par accident, la réactivation l’activera.
Remarques
Utilisez cette méthode pour lire des fichiers sous forme de flux de données binaires. Renvoie un objet de flux de fichiers par fichier lu. Utilisez cette méthode lorsque vous lisez des images, des vidéos, des fichiers audio ou d’autres données binaires.
get_profile
et
create_snapshot
ne fonctionneront pas comme prévu pour un jeu de données créé par cette méthode.
Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Paramètres
DataReference
ou
Obligatoire
Chemin de données d’un magasin de données inscrit, chemin d’accès local ou URL HTTP.
separator
Obligatoire
Séparateur utilisé pour fractionner les colonnes.
header
PromoteHeadersBehavior
Obligatoire
Détermine la façon dont les en-têtes de colonne sont promus lors de la lecture des fichiers.
encoding
FileEncoding
Obligatoire
Encodage des fichiers lus.
quoting
Obligatoire
Indique comment traiter les caractères de nouvelle ligne qui sont entre guillemets.
La valeur par défaut (False) consiste à interpréter les caractères de nouvelle ligne comme le début de nouvelles lignes, que ces caractères soient entre guillemets ou non.
Si elle est définie sur True, les caractères de nouvelle ligne situés à l’intérieur des guillemets ne génèrent pas de nouvelles lignes, et la lecture du fichier est ralentie.
infer_column_types
Obligatoire
Indique si les types de données des colonnes sont déduits.
skip_rows
Obligatoire
Nombre de lignes à ignorer dans le ou les fichiers en cours de lecture.
skip_mode
SkipLinesBehavior
Obligatoire
Détermine la façon dont les lignes sont ignorées lors de la lecture des fichiers.
comment
Obligatoire
Caractère utilisé pour indiquer les lignes de commentaires dans les fichiers en cours de lecture.
Les lignes commençant par cette chaîne seront ignorées.
include_path
Obligatoire
Indique s’il faut inclure une colonne contenant le chemin d’accès au fichier à partir duquel les données ont été lues.
Utile lorsque vous lisez plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier, ou pour conserver des informations utiles dans le chemin du fichier.
archive_options
<xref:azureml.dataprep.ArchiveOptions>
Obligatoire
Options liées au fichier d’archive, comme le type d’archive et le modèle Glob d’entrée.
Pour le moment, seul le type d’archive ZIP est pris en charge. Par exemple, spécifier
archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')
permet de lire tous les fichiers dont le nom se termine par « 10-20.csv » dans le ZIP.
partition_format
Obligatoire
Spécifie le format de partition dans le chemin d’accès, et crée des colonnes de type chaîne au format « {x} » et une colonne DateHeure au format « {x:yyyy/MM/dd/HH/mm/ss} », où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et la seconde pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier.
Par exemple, à partir d’un chemin d’accès de fichier « ../Accounts/2019/01/01/data.csv » où les données sont partitionnées par nom de service et par heure, nous pouvons définir « /{Department}/{PartitionDate:yyyy/MM/dd}/data.csv » pour créer des colonnes « Department » de type chaîne et « PartitionDate » de type DateHeure.
Retours
Objet de jeu de données.
Type de retour
Dataset
Remarques
Utilisez cette méthode pour lire des fichiers texte délimités lorsque vous souhaitez contrôler les options utilisées.
Après avoir créé un jeu de données, vous devez utiliser
get_profile
pour répertorier les types de colonnes détectés et les statistiques récapitulatives de chaque colonne.
Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Paramètres
DataReference
ou
Obligatoire
Chemin de données d’un magasin de données inscrit ou chemin d’accès local.
sheet_name
Obligatoire
Nom de la feuille Excel à charger.
Par défaut, nous lisons la première feuille de chaque fichier Excel.
use_column_headers
Obligatoire
Détermine si la première ligne doit être utilisée comme en-têtes de colonnes.
skip_rows
Obligatoire
Nombre de lignes à ignorer dans le ou les fichiers en cours de lecture.
include_path
Obligatoire
Indique s’il faut inclure une colonne contenant le chemin d’accès au fichier à partir duquel les données ont été lues.
Utile lorsque vous lisez plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier, ou pour conserver des informations utiles dans le chemin du fichier.
infer_column_types
Obligatoire
Si la valeur est True, les types de données des colonnes sont déduits.
partition_format
Obligatoire
Spécifie le format de partition dans le chemin d’accès, et crée des colonnes de type chaîne au format « {x} » et une colonne DateHeure au format « {x:yyyy/MM/dd/HH/mm/ss} », où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et la seconde pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier.
Par exemple, à partir d’un chemin d’accès de fichier « ../Accounts/2019/01/01/data.xls » où les données sont partitionnées par nom de service et par heure, nous pouvons définir « /{Department}/{PartitionDate:yyyy/MM/dd}/data.xls » pour créer des colonnes « Department » de type chaîne et « PartitionDate » de type DateHeure.
Retours
Objet de jeu de données.
Type de retour
Dataset
Remarques
Utilisez cette méthode pour lire les fichiers Excel au format .xlsx. Les données peuvent être lues à partir d’une seule feuille dans chaque fichier Excel.
Après avoir créé un jeu de données, vous devez utiliser
get_profile
pour répertorier les types de colonnes détectés et les statistiques récapitulatives de chaque colonne. Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Paramètres
DataReference
ou
Obligatoire
Chemin d’accès au(x) fichier(s) ou dossier(s) que vous souhaitez charger et analyser. Il peut s’agir d’un chemin d’accès local ou de l’URL d’un objet blob Azure. Les caractères génériques sont pris en charge. Par exemple, vous pouvez utiliser path = "./data*" pour lire tous les fichiers dont le nom commence par « Data ».
encoding
FileEncoding
Obligatoire
Encodage des fichiers lus.
flatten_nested_arrays
Obligatoire
Propriété contrôlant la gestion par le programme des tableaux imbriqués.
Si vous choisissez d’aplatir les tableaux JSON imbriqués, vous risquez d’obtenir un nombre de lignes beaucoup plus important.
include_path
Obligatoire
Indique s’il faut inclure une colonne contenant le chemin d’accès à partir duquel les données ont été lues.
Utile lorsque vous lisez plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier, ou pour conserver des informations utiles dans le chemin du fichier.
partition_format
Obligatoire
Spécifie le format de partition dans le chemin d’accès, et crée des colonnes de type chaîne au format « {x} » et une colonne DateHeure au format « {x:yyyy/MM/dd/HH/mm/ss} », où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et la seconde pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier.
Par exemple, à partir d’un chemin d’accès de fichier « ../Accounts/2019/01/01/data.json » où les données sont partitionnées par nom de service et par heure, nous pouvons définir « /{Department}/{PartitionDate:yyyy/MM/dd}/data.json » pour créer des colonnes « Department » de type chaîne et « PartitionDate » de type DateHeure.
Retours
Objet de jeu de données local.
Type de retour
Dataset
Crée un jeu de données en mémoire non-inscrit à partir d’une trame de données Pandas.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Utilisez plutôt Dataset.Tabular.register_pandas_dataframe. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Paramètres
dataframe
DataFrame
Obligatoire
Trame de données Pandas.
Union
[
DataReference
,
str
]
Obligatoire
Chemin de données d’un magasin de données inscrit ou chemin d’accès local du dossier.
in_memory
Obligatoire
Indique s’il faut lire la trame de données à partir de la mémoire au lieu d’en assurer la persistance sur le disque.
Retours
Objet de jeu de données.
Type de retour
Dataset
Remarques
Utilisez cette méthode pour convertir une trame de données Pandas en objet de jeu de données.
Un jeu de données créé à l’aide de cette méthode ne peut pas être inscrit, car les données proviennent de la mémoire.
Si la valeur de
in_memory
est False, la trame de données Pandas est convertie en fichier CSV localement. Si le type de
pat
est DataReference, la trame de données Pandas est chargée dans le magasin de données et le jeu de données est basé sur l’élément DataReference. Si « path » est un dossier local, le jeu de données est créé à partir du fichier local qui ne peut pas être supprimé.
Génère une exception si l’élément DataReference actuel n’est pas un chemin de dossier.
Obligatoire
Indique s’il faut inclure une colonne contenant le chemin d’accès au fichier à partir duquel les données ont été lues.
Utile lorsque vous lisez plusieurs fichiers et que vous souhaitez savoir de quel fichier provient un enregistrement particulier, ou pour conserver des informations utiles dans le chemin du fichier.
partition_format
Obligatoire
Spécifie le format de partition dans le chemin d’accès, et crée des colonnes de type chaîne au format « {x} » et une colonne DateHeure au format « {x:yyyy/MM/dd/HH/mm/ss} », où « yyyy », « MM », « dd », « HH », « mm » et « ss » sont utilisés pour extraire l’année, le mois, le jour, l’heure, la minute et la seconde pour le type DateHeure. Le format doit commencer à partir de la position de la première clé de partition et se poursuivre jusqu’à la fin du chemin d’accès au fichier.
Par exemple, à partir d’un chemin d’accès de fichier « ../Accounts/2019/01/01/data.parquet » où les données sont partitionnées par nom de service et par heure, nous pouvons définir « /{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet » pour créer des colonnes « Department » de type chaîne et « PartitionDate » de type DateHeure.
Retours
Objet de jeu de données.
Type de retour
Dataset
Remarques
Utilisez cette méthode pour lire les fichiers Parquet.
Après avoir créé un jeu de données, vous devez utiliser
get_profile
pour répertorier les types de colonnes détectés et les statistiques récapitulatives de chaque colonne.
Le jeu de données retourné n’est pas inscrit auprès de l’espace de travail.
Obligatoire
Cible de calcul facultative pour procéder à la création du profil d’instantané.
En cas d’omission, le calcul local est utilisé.
workspace
Workspace
Obligatoire
Espace de travail, requis pour les jeux de données temporaires (non-inscrits).
arguments
dict
[
str
,
object
]
Obligatoire
Arguments associés au profil. Les arguments valides sont :
le jeu de données correspondant à la propriété
name
ou
id
spécifiée est introuvable dans l’espace de travail.
Obligatoire
Espace de travail Azure Machine Learning existant dans lequel les jeux de données ont été inscrits.
Retours
Dictionnaire d’objets TabularDataset et FileDataset indexés par leur nom d’inscription.
Type de retour
dict
[
str
,
Union
[
TabularDataset
,
FileDataset
]]
Retours
Objet de jeu de données.
Si le jeu de données est inscrit, son nom et sa version d’inscription sont également renvoyés.
Type de retour
Union
[
TabularDataset
,
FileDataset
]
Remarques
Si
version_id
est fourni, Azure Machine Learning essaie d’obtenir la définition correspondant à cette version. Si cette version n’existe pas, une exception est générée.
Si
version_id
est omis, la version la plus récente est récupérée.
Remarques
Un jeu de données inscrit dans un espace de travail Azure Machine Learning peut avoir plusieurs définitions, chacune créée en appelant
update_definition
. Chaque définition possède un identificateur unique. La définition actuelle est la dernière créée.
Pour les jeux de données non inscrits, il n’existe qu’une seule définition.
Récupère des statistiques récapitulatives sur le jeu de données calculé précédemment.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Paramètres
arguments
dict
[
str
,
object
]
Obligatoire
Arguments associés au profil.
generate_if_not_exist
Obligatoire
Indique s’il faut générer un profil s’il n’existe pas.
workspace
Workspace
Obligatoire
Espace de travail, requis pour les jeux de données temporaires (non inscrits).
compute_target
Union
[
ComputeTarget
,
str
]
Obligatoire
Cible de calcul pour exécuter l’action de profil.
Retours
Schéma DataProfile du jeu de données.
Type de retour
<xref:azureml.dataprep.DataProfile>
Remarques
Pour un jeu de données inscrit auprès d’un espace de travail Azure Machine Learning, cette méthode récupère un profil existant précédemment créé en appelant
get_profile
s’il est toujours valide. Les profils sont invalidés si des modifications sont détectées dans le jeu de données ou que les arguments de
get_profile
sont différents de ceux utilisés lors de la génération du profil. Si le profil est absent ou invalidé,
generate_if_not_exist
détermine si un nouveau profil est généré.
Pour un jeu de données qui n’est pas inscrit auprès d’un espace de travail Azure Machine Learning, cette méthode exécute toujours
generate_profile
et renvoie le résultat.
Extrait le nombre spécifié d’enregistrements à partir de ce jeu de données et les renvoie sous forme de trame de données.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
head(count)
Paramètres
count
Obligatoire
Nombre d’enregistrements à extraire.
Retours
Trame de données Pandas.
Type de retour
DataFrame
Répertorie tous les jeux de données de l’espace de travail, y compris ceux dont la propriété
is_visible
est False.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Utilisez plutôt
get_all
. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
static list(workspace)
Paramètres
workspace
Workspace
Obligatoire
Espace de travail pour lequel vous souhaitez récupérer la liste des jeux de données.
Retours
Liste des objets de jeu de données.
Type de retour
list
[
Dataset
]
Inscrit le jeu de données dans l’espace de travail, ce qui le met à disposition des autres utilisateurs de l’espace de travail.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Utilisez plutôt
register
. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Paramètres
workspace
Workspace
Obligatoire
Espace de travail Azure Machine Learning dans lequel le jeu de données doit être enregistré.
Obligatoire
Nom du jeu de données figurant dans l’espace de travail.
description
Obligatoire
Description du jeu de données.
dict
[
str
,
str
]
Obligatoire
Étiquettes à associer au jeu de données.
visible
Obligatoire
Indique si le jeu de données est visible dans l’IU.
Si la valeur est False, le jeu de données est masqué dans l’IU et disponible via le Kit de développement logiciel (SDK).
exist_ok
Obligatoire
Si la valeur est True, la méthode renvoie le jeu de données, à condition que celui-ci existe déjà dans l’espace de travail donné, sinon une erreur est générée.
update_if_exist
Obligatoire
Si les valeurs des propriétés
exist_ok
et
update_if_exist
sont toutes deux True, cette méthode met la définition à jour et renvoie le jeu de données mis à jour.
Retours
Objet de jeu de données inscrit dans l’espace de travail.
Type de retour
Dataset
Génère un nouvel échantillon à partir du jeu de données source, en utilisant la stratégie d’échantillonnage et les paramètres fournis.
Notes
Cette méthode est déconseillée et ne sera plus prise en charge à l’avenir.
Créez un jeu de données
TabularDataset
en appelant les méthodes statiques de Dataset.Tabular et utilisez la méthode
take_sample
. Pour plus d’informations, consultez
https://aka.ms/dataset-deprecation
.
sample(sample_strategy, arguments)
Paramètres
sample_strategy
Obligatoire
Exemple de stratégie à utiliser. Les valeurs acceptées sont « top_n », « simple_random » ou « stratified ».
arguments
dict
[
str
,
object
]
Obligatoire
Dictionnaire contenant les clés de la colonne « Argument facultatif » de la liste ci-dessus, et les valeurs de la colonne « Type ». Seuls les arguments de la méthode d’échantillonnage correspondante peuvent être utilisés. Par exemple, pour un type d’échantillon « simple_random », vous pouvez uniquement spécifier un dictionnaire contenant les clés « probabilité » et « seed ».
Retours
Objet de jeu de données en tant qu’échantillon du jeu de données d’origine.
Type de retour
Dataset
Remarques
Les échantillons sont générés en exécutant le pipeline de transformation défini par ce jeu de données, puis en appliquant la stratégie et les paramètres d’échantillonnage aux données de sortie. Chaque méthode d’échantillonnage prend en charge les arguments facultatifs suivants :