1. Os sistemas de IA de risco elevado que utilizem técnicas que envolvam o treino de modelos com dados devem ser desenvolvidos com base em conjuntos de dados de treino, validação e teste que cumpram os critérios de qualidade a que se referem os n.os 2 a 5, sempre que esses conjuntos de dados sejam utilizados.
2. Os conjuntos de dados de treino, validação e teste devem estar sujeitos a práticas de governação e gestão de dados adequadas à finalidade prevista do sistema de IA. Essas práticas dizem nomeadamente respeito:
a) |
Às escolhas de conceção pertinentes; |
b) |
A processos de recolha de dados e à origem dos dados e, no caso dos dados pessoais, à finalidade original da recolha desses dados; |
c) |
Às operações de tratamento necessárias para a preparação dos dados, tais como anotação, rotulagem, limpeza, atualização, enriquecimento e agregação; |
d) |
À formulação dos pressupostos, nomeadamente no que diz respeito às informações que os dados devem medir e representar; |
e) |
À avaliação da disponibilidade, quantidade e adequação dos conjuntos de dados que são necessários; |
f) |
Ao exame para detetar eventuais enviesamentos suscetíveis de afetar a saúde e a segurança das pessoas, de ter repercussões negativas nos direitos fundamentais ou de resultar em discriminações proibidas pelo direito da União, especialmente quando os resultados obtidos a partir dos dados influenciam os dados de entrada para operações futuras; |
g) |
Às medidas adequadas para detetar, prevenir e atenuar eventuais enviesamentos identificados nos termos da alínea f); |
h) |
À identificação de lacunas ou deficiências pertinentes dos dados que impeçam o cumprimento do presente regulamento e de possíveis soluções para as mesmas. |
3. Os conjuntos de dados de treino, validação e teste devem ser pertinentes, suficientemente representativos e, tanto quanto possível, isentos de erros e completos, tendo em conta a finalidade prevista. Devem ter as propriedades estatísticas adequadas, nomeadamente, quando aplicável, no tocante às pessoas ou grupos de pessoas em relação às quais se destina a utilização do sistema de IA de risco elevado. Essas características dos conjuntos de dados podem ser satisfeitas a nível de conjuntos de dados individuais ou de uma combinação dos mesmos.
4. Os conjuntos de dados devem ter em conta, na medida do necessário para a finalidade prevista, as características ou os elementos que são idiossincráticos do enquadramento geográfico, contextual, comportamental ou funcional específico no qual o sistema de IA de risco elevado se destina a ser utilizado.
5. Na medida do estritamente necessário para assegurar a deteção e a correção de enviesamentos em relação aos sistemas de IA de risco elevado em conformidade com o n.o 2, alíneas f) e g), do presente artigo, os prestadores desses sistemas podem, excecionalmente, tratar categorias especiais de dados pessoais, sob reserva de garantias adequadas dos direitos e liberdades fundamentais das pessoas singulares. Para além das disposições estabelecidas nos Regulamentos (UE) 2016/679 e (UE) 2018/1725 e na Diretiva (UE) 2016/680, todas as seguintes condições para que esse tratamento ocorra devem ser cumpridas:
a) |
A deteção e a correção de enviesamentos não podem ser eficazmente efetuadas através do tratamento de outros dados, nomeadamente dados sintéticos ou anonimizados; |
b) |
As categorias especiais de dados pessoais estão sujeitas a limitações técnicas em matéria de reutilização dos dados pessoais e às mais avançadas medidas de segurança e preservação da privacidade, incluindo a pseudonimização; |
c) |
As categorias especiais de dados pessoais estão sujeitas a medidas destinadas a assegurar que os dados pessoais tratados estejam seguros, protegidos e sujeitos a garantias adequadas, incluindo controlos rigorosos e uma documentação criteriosa do acesso a esses dados, a fim de evitar uma utilização abusiva e assegurar que apenas tenham acesso a esses dados as pessoas autorizadas e com as devidas obrigações de confidencialidade; |
d) |
As categorias especiais de dados pessoais não são transmitidos nem transferidos para terceiros, nem de outra forma consultados por esses terceiros; |
e) |
As categorias especiais de dados pessoais são eliminadas assim que o enviesamento tenha sido corrigido ou que os dados pessoais atinjam o fim do respetivo período de conservação, consoante o que ocorrer primeiro; |
f) |
Os registos das atividades de tratamento nos termos do Regulamento (UE) 2016/679, do Regulamento (UE) 2018/1725 e da Diretiva (UE) 2016/680 incluem os motivos pelos quais o tratamento de categorias especiais de dados pessoais foi estritamente necessário para detetar e corrigir enviesamentos e os motivos pelos quais não foi possível alcançar esse objetivo através do tratamento de outros dados. |
6. Para o desenvolvimento de sistemas de IA de risco elevado que não utilizam técnicas que envolvem o treino de modelos de IA, os n.os 2 a 5 aplicam-se apenas aos conjuntos de dados de teste.