Os dados de elevada qualidade e o acesso a dados de elevada qualidade desempenham um papel essencial ao proporcionarem estrutura e garantirem o desempenho de vários sistemas de IA, sobretudo quando são utilizadas técnicas que envolvem o treino de modelos, com vista a assegurar que o sistema de IA de risco elevado funcione como pretendido e de modo seguro e não se torne uma fonte de uma discriminação proibida pelo direito da União. Para garantir conjuntos de dados de treino, validação e testagem de elevada qualidade é necessário aplicar práticas adequadas de governação e gestão de dados. Os conjuntos de dados de treino, validação e testagem, incluindo os rótulos, deverão ser pertinentes, suficientemente representativos e, tanto quanto possível, isentos de erros e completos, tendo em conta a finalidade prevista do sistema. A fim de facilitar o cumprimento da legislação da União em matéria de proteção de dados, como o Regulamento (UE) 2016/679, as práticas de governação e de gestão de dados deverão incluir, no caso dos dados pessoais, a transparência sobre a finalidade inicial da recolha de dados. Os conjuntos de dados deverão também ter as propriedades estatísticas adequadas, nomeadamente no que respeita às pessoas ou grupos de pessoas nos quais o sistema de IA de risco elevado se destina a ser utilizado, com especial atenção para a atenuação de eventuais enviesamentos nos conjuntos de dados que sejam suscetíveis de afetar a saúde e a segurança das pessoas, afetar negativamente os direitos fundamentais ou conduzir a discriminações proibidas pelo direito da União, especialmente quando os resultados dos dados influenciam entradas para operações futuras («circuitos de realimentação»). Os enviesamentos podem, por exemplo, ser inerentes a conjuntos de dados de base, especialmente quando são usados ou gerados dados históricos ao serem aplicados os sistemas a situações reais. Os resultados apresentados pelos sistemas de IA poderão ser influenciados por enviesamentos inerentes que tendem a aumentar gradualmente, e, desse modo, a perpetuar e a ampliar a discriminação existente, em particular de pessoas pertencentes a grupos vulneráveis, nomeadamente de grupos raciais ou étnicos. O requisito de os conjuntos de dados serem o mais completos possível e isentos de erros não deverá afetar a utilização de técnicas de preservação da privacidade no contexto do desenvolvimento e testagem de sistemas de IA. Em especial, os conjuntos de dados deverão ter em conta, na medida do exigido face à sua finalidade prevista, as funcionalidades, as características ou os elementos que são específicos do cenário geográfico, contextual, comportamental ou funcional no qual o sistema de IA se destina a ser utilizado. Os requisitos relacionados com a governação dos dados podem ser cumpridos recorrendo a terceiros que ofereçam serviços de conformidade certificados, incluindo a verificação da governação dos dados, da integridade dos conjuntos de dados e das práticas de treino, validação e testagem de dados, desde que seja assegurado o cumprimento dos requisitos em matéria de dados do presente regulamento.