Les données de haute qualité et l’accès à ces données jouent un rôle essentiel pour ce qui est de fournir une structure et d’assurer le bon fonctionnement de nombreux systèmes d’IA, en particulier lorsque des techniques axées sur l’entraînement de modèles sont utilisées, afin de garantir que le système d’IA à haut risque fonctionne comme prévu et en toute sécurité et qu’il ne devient pas une source de discrimination interdite par le droit de l’Union. Les jeux de données d’entraînement, de validation et de test de haute qualité nécessitent la mise en œuvre de pratiques de gouvernance et de gestion des données appropriées. Les jeux de données d’entraînement, de validation et de test, y compris les étiquettes, devraient être pertinents, suffisamment représentatifs et, dans toute la mesure du possible, exempts d’erreurs et complets au regard de la destination du système. Afin de faciliter le respect du droit de l’Union sur la protection des données, tel que le règlement (UE) 2016/679, les pratiques en matière de gouvernance et de gestion des données devraient inclure, dans le cas des données à caractère personnel, la transparence quant à la finalité initiale de la collecte des données. Les jeux de données devraient également posséder les propriétés statistiques voulues, y compris en ce qui concerne les personnes ou groupes de personnes pour lesquels le système d’IA à haut risque est destiné à être utilisé, en accordant une attention particulière à l’atténuation des éventuels biais dans les jeux de données qui sont susceptibles de porter atteinte à la santé et à la sécurité des personnes, d’avoir une incidence négative sur les droits fondamentaux ou de se traduire par une discrimination interdite par le droit de l’Union, en particulier lorsque les données de sortie influencent les entrées pour les opérations futures («boucles de rétroaction»). Des biais peuvent, par exemple, être inhérents à des jeux de données sous-jacents, en particulier lorsque des données historiques sont utilisées, ou générés lorsque les systèmes sont mis en œuvre dans des conditions réelles. Les résultats produits par les systèmes d’IA pourraient être influencés par ces biais inhérents, qui ont tendance à se renforcer progressivement et ainsi à perpétuer et à amplifier les discriminations existantes, en particulier pour les personnes appartenant à certains groupes vulnérables, y compris les groupes ethniques ou raciaux. L’exigence selon laquelle les jeux de données doivent être dans toute la mesure du possible complets et exempts d’erreurs ne devrait pas avoir d’effet sur l’utilisation de techniques respectueuses de la vie privée dans le contexte du développement et de la mise à l’essai des systèmes d’IA. En particulier, les jeux de données devraient prendre en considération, dans la mesure requise au regard de leur destination, les propriétés, les caractéristiques ou les éléments qui sont propres au cadre géographique, contextuel, comportemental ou fonctionnel spécifique dans lequel le système d’IA est destiné à être utilisé. Les exigences relatives à la gouvernance des données peuvent être respectées en faisant appel à des tiers qui proposent des services de conformité certifiés, y compris la vérification de la gouvernance des données, l’intégrité des jeux de données et les pratiques d’entraînement, de validation et de mise à l’essai des données, dans la mesure où le respect des exigences du présent règlement en matière de données est garanti.