Kategori: menneske og computer
Big data er Big Problems.
10-03-2020
Dette indlæg skal handle om Big Data, som techgiganterne og myndighederne grådigt indsamler. Data opfattes som værdifuld 'råolie' og sælges til høje priser. Indlægget bygger på disse artikler.

I de seneste udgivelser fra EU kommissionen bl.a. en hvidbog om AI sættes data højt. Strategien er, at data skal bruges og genbruges på alle områder fx sundhedsvæsenet og socialvæsenet til forøgelse af effektiviteten og formindskelse af omkostningerne og til kontrol af modtagere af offentlig hjælp. Det indrømmes, også i hvidbogen, at data kan være fyldt med snavs som forurener data systemerne og gør dem diskriminerende. Fortidige data afspejler menneskers fordomme, fx er kvinder er blevet diskrimineret og bl.a. fravalgt som uegnede til bestemte job i virksomheder og på universiteter. Det vil data fra fortiden afspejle, og når AI systemer oplæres på disse data vil systemerne også blive diskriminerende og fordi AI kan genererer automatiske afgørelser på samlebånd i en uafbrudt strøm, vil AI bevirke en mange gange større diskriminering end mennesker nogensinde vil være i stand til.

For det meste nævnes dette problem med AI, at data er fyldt med menneskers fordomme. Men det kan forhindres, siges det. Data og algoritmerne kan og skal bare renses for bias. Efter min mening er menneskers fordomme i data det mindste problem. Det er for nemt at pege på menneskers bias eller fordomme. Artikler om AI, også videnskabelige, bruger ordet 'bias' meget bredere om alle de fejl der opstår i kunstige programmer.

Foreløbig nogle citater. Senere vil jeg skrive mere udførlige kommentarer.

Fra artiklen Key challenges for delivering clinical impact with artificial intelligences: En AI algoritme kan være fyldt med mange slags mangler, som gør at den ikke kan bruges uden for træningsområdet, fordi den har lært sig at lægge mærke til noget forkert. Hvis fx læger skriver diagnosen kun på røntgenbilleder med alvorlige kræftknuder, vil et AI mene, at der er en farlige kræftknude, når den får et røntgenbillede med påskrift. Eller læger kan have den praksis altid at lægge en lineal på billeder af kræftknuder, dvs at linialen er med i billedet. Et AI vil lægge mærke til det og lægge vægten på det, så når dette AI ser et billede med en linieal, vil den afgøre, at der er en kræftknude. Dette AI ser kun på linealen og ikke på knuden.

AI algorithms have the potential to suffer from a host of shortcomings , including inapplicability outside of the training domain, bias and brittleness ( tendency to be easily fooled )

I ovenstående citat er det klart at bias ikke er fordomme hos mennesker. Røntgenbilleder kan ikke indholde fordomme.

Accidentally fitting confounders versus true signal Machine learning algorithms will use whatever signals are available to achieve the best possible performance in the dataset used. This may include the exploitation of unknown confounders that may not be reliable



Fra artiklen Can algorithms help judges make fair decisions? - WHYY:

Endnu et eksempel på, at data kan være rene og uden bias, men et AI lægger vægten på noget forkert i disse data.

AI is crafty , and just like Hans the clever horse, it seeks the simplest cue . In this hospital all abnormal radiographs are labelled – “PA.” None of the normals are labelled. This is the way they kept track of the abnormals. AI wasn’t seeing the hila, or CPA, or lung apices – it detected the mark – “PA” – which it couldn’t miss



Fra artiklen The Rhetoric and Reality of Anthropomorphism in Artificial Intelligence | SpringerLink: Data er utallige tal for alt muligt i virkeligheden. Data er 'messy' og 'noisy', dvs. fyldt med tal, som ikke har betydning for det et AI skal behandle. Data skal renses, så et AI ikke bliver forstyrret.

The basic intuition behind the lasso is that datasets are often intolerably noisy . We need some sensible method for eliminating variables that hinder our ability to detect and exploit signals of interest.



Fra artiklen The issue of bias: the framing powers of ML: Data, også selv om det er Big Data, dvs utrolig mange tal, vil de aldrig repræsentere virkeligheden fuldstændig. Der vil altid mangle tal, og det kan ske, at netop disse manglende tal er de vigtigste, for at et AI kan nå til den rigtige 'dom'. En af grundene til manglende tal kan også være, at
AI designerne har renset dem væk, fordi de blev anset for at være være undtagelses tilfælde. Data designere må altid oversætte og organisere data. Det er en illusion, at data er det samme som virkeligheden.

One problem may be that . . the data set . . does not correctly define the real life events the data supposedly represent. Due to the translation and curation that must be accomplished when data is captured, there is a gap between the data and what they refer to (a “reality gap”). [AI designere kan arbejde ] without noticing that it is the missing data that are relevant. . . The reality gap I refer to here also concerns the illusion that ‘real’data are equivalent with ‘reality’ .

Et andet problem er at jo større datamængden er, desto flere falske sammenhænge eller mønstre kan der være i data, dvs et AI vil komme til en forkert 'dom'.

A second problem is that the more data we have, the more spurious correlations or patterns can be found in the data, because unless data is truly random, many different mathematical relationships can be detected between the data.



Efterhånden vil jeg tilføje flere citater.

se alle indlæg
cookies