Trainingsdatasets voor kunstmatige intelligentie: enkele juridische aspecten
Data delen (data sharing) of liever het vermogen om hoge kwaliteit trainingsdatasets te kunnen analyseren om een AI model -zoals een generative adversarial network- te trainen, is een voorwaarde voor een succesvol AI-ecosysteem in Nederland.
In ons turbulente technologische tijdperk nemen fysieke aanknopingspunten als papier of tastbare producten binnen de context van data -of informatie- in belang af. Informatie is niet langer aan een continent, staat of plaats gebonden. Informatietechnologie zoals kunstmatige intelligentie ontwikkelt zich in een dermate hoog tempo, dat de juridische problemen die daaruit voortvloeien in belangrijke mate onvoorspelbaar zijn. Hierdoor ontstaan -kort gezegd- problemen voor tech startups en scaleups.
In dit artikel een serie -mede in onderlinge samenhang te beschouwen aanbevelingen, suggesties en inventieve oplossingen om anno 2020 tot waardevolle nationale en Europese dataketens te komen.
Data donor codicil
Introductie van een Europees (of nationaal) data donor codicil waarmee een patiënt of consument vrijwillig data kan doneren aan de overheid en/of het bedrijfsleven, AVG-proof. Hier kunnen waardeketens worden gecreëerd door de sensor data van medische Internet of Things (IoT) apparaten en smart wearables van overheidswege te accumuleren. Anoniem of met biomarkers.
Data interoperabel en gestandaardiseerd
Unificatie van data uitwisselingsmodellen zodat deze interoperabel en gestandaardiseerd worden in het IoT. Een voorbeeld is een Europees EPD (Elektronisch Patiënten Dossier), i.e een Electronic Healthcare Record (EMR). AI certificering en standaardisatie (zoals ISO, ANSI, IEEE / IEC) dient bij voorkeur niet te worden uitgevoerd door private partijen met commerciële doelstellingen, maar door onafhankelijke openbare instanties (vergelijk het Amerikaanse FDA).
Machine generated (non) personal data
Een andere categorisering die we kunnen maken is enerzijds publieke (in handen van de overheid) machine generated (non) personal data, en private machine generated (non) personal data. Met machine generated data bedoelen we met name informatie en gegevens die continue door edge devices worden gegenereerd in het Internet of Things (IoT). Deze edge devices staan via edge (of fod) nodes (zenders) in verbinding met datacenters die samen met edge servers de cloud vormen. Deze architectuur noemen we ook wel edge computing.
Juridische dimensie
Data, of informatie heeft een groot aantal juridische dimensies. Aan data delen kleven potentieel intellectueel eigendomsrechtelijke (verbodsrecht en vergoedingsrecht), ethische, grondrechtelijke (privacy, vrijheid van meningsuiting), contractenrechtelijke en internationaal handelsrechtelijke aspecten. Juridisch eigendom op data bestaat anno 2020 niet omdat het -vanuit goederenrechtelijk oogpunt- niet als zaak wordt gekwalificeerd. Data heeft wel vermogensrechtelijke aspecten.