Duomenų Nepavyko! Kaip „Google“ Gripo Tendencijos Mažėja

{h1}

„big data“ turi didelį potencialą, tačiau „google“ bandymas sekti gripo tendencijas susidūrė su iššūkiais.

Bandymas nustatyti gripo protrūkius stebint žmonių „Google“ paieškas apie ligą neatitiko pradinių pažadų, teigiama naujame dokumente.

„Google“ gripo tendencijos, bandymas sekti gripo protrūkius pagal paieškos terminus, dramatiškai pervertino gripo atvejų skaičių 2012–2013 m. Sezone, o naujausi duomenys neatrodo vilčių teikiantys, sako Davidas Lazeris, Northeastern universiteto kompiuteris ir politologas. Bostone, ir jo kolegos penktadienio (kovo 14 d.) žurnale „Science“ paskelbtuose politikos straipsniuose apie „Big Data“ spąstus.

„Ten yra didžiulis potencialas, tačiau taip pat yra daug galimybių suklysti“, - „Lazer“ pasakojo „WordsSideKick.com“. [6 superbugės, kurių reikia saugotis]

„Google“ klaidos

Nenuostabu, kad „Google“ gripo tendencijos ne visada pasiekiamos namų sąlygomis. 2013 m. Vasario mėn. Mokslininkai žurnale „Nature“ pranešė, kad programa maždaug dvigubai padidino gripo atvejų skaičių, kurį užfiksavo Ligų kontrolės ir prevencijos centrai (CDC) ir kuriame stebimi faktiniai pranešti atvejai.

„Kai jis nukrito nuo bėgių, jis iš tikrųjų ėjo iš bėgių“, - sakė Lazeras.

„Google“ gripo tendencijos taip pat kovojo 2009 m., Nes trūko viso sezono gripo H1NI protrūkio. Dėl klaidų „Google“ komanda privertė iš naujo pritaikyti savo algoritmą, tačiau ankstyvas paskutiniojo gripo sezono žvilgsnis rodo, kad šie pokyčiai problemos neišsprendė, rodo išankstinė Lazerio ir kolegų analizė, paskelbta šiandien (kovo 13 d.) Socialiniame tinkle. prieš paskelbimą paskelbta svetainė „Socialinių mokslų tyrimų tinklas“ (SSRN).

„Lazer“ teigė, kad ši problema nėra būdinga tik „Google“ gripui. Visi socialiniai mokslai „Big Data“ arba didžiulės populiacijos analizė iš mobiliųjų ar socialinės žiniasklaidos technologijų susiduria su tais pačiais iššūkiais, kuriuos bando įveikti „Google Flu“ komanda.

Didelių duomenų trūkumai

Išsiaiškinti, kas nutiko „Google“ gripo tendencijose, nėra lengva, nes įmonė neatskleidžia, kokius paieškos terminus ji naudoja gripui sekti.

"Jie gauna F replikacijos metu", - teigė Lazeris. Tai reiškia, kad mokslininkai neturi pakankamai informacijos apie radinių tikrinimo ir atkūrimo metodus.

Tačiau Lazeras ir jo kolegos supranta, kas nutiko. Anot jo, pagrindinė problema yra tai, kad „Google“ yra verslas, suinteresuotas skatinti paieškas, o ne mokslinė komanda, renkanti duomenis. Tada „Google“ algoritmas vartotojus ragina ieškoti susijusių paieškų: Jei kas nors ieško „gripo simptomų“, greičiausiai jis bus paragintas paieškoti, pavyzdžiui, „gripo vakcinos“. Taigi, su gripu susijusių paieškų skaičius gali iškrėsti, net jei gripo atvejų nėra. [Išaiškinti 5 pavojingų skiepijimų mitai]

Kita problema, pasak Lazerio, yra ta, kad „Google Flu“ komanda turėjo atskirti paieškas, susijusias su gripu, nuo paieškų, kurios yra susijusios su gripo sezonu, bet nėra susijusios. Norėdami tai padaryti, jie paėmė daugiau nei 50 milijonų paieškos terminų ir suderino juos su maždaug 1100 duomenų taškų apie gripo paplitimą iš CDC.

Žaisti koreliacijos žaidimą su daugybe terminų, be abejo, bus gauta keletas keistų, nesąmoningų rezultatų, sakė Lazeris, „kaip ir beždžionės gali įvesti Šekspyro galą“. Pvz., „Vidurinės mokyklos krepšinis“ populiarėja kaip paieškos terminas per kovo mėn., Kuris paprastai būna gripo sezono pikas. „Google“ atrinko akivaizdžiai klaidingas koreliacijas ir jas pašalino, tačiau tiksliai, kokius terminus jie pašalino, ir neaiški logika tai daryti. Kai kurie terminai, tokie kaip „kosulys“ ar „karščiavimas“, gali atrodyti susiję su gripu, bet iš tikrųjų signalizuoja apie kitas sezonines ligas, sakė Lazeris.

„Tai buvo dalis gripo detektoriaus ir dalis žiemos detektoriaus“, - sakė jis.

Problemos ir potencialas

„Google“ komanda pakeitė savo algoritmą ir po 2009, ir 2013 metų praleidimo, tačiau paskutinius pakeitimus padarė, laikydamasi prielaidos, kad problemų sukėlė 2012–2013 metų gripo sezono spauda žiniasklaidoje, Lazer ir jo kolegos rašė savo SSRN dokumente. Remiantis tyrėjais, ši prielaida atmeta didžiąją dalį žiniasklaidos pranešimų apie 2009 m. H1N1 pandemiją ir nepaaiškina klaidų 2011–2012 m. Gripo sezone.

„Google“ atstovė nurodė „WordsSideKick.com“ tinklaraščio įraše apie „Google Flu“ atnaujinimus, kuriame raginama tobulinti „pasikartojantį procesą“.

Lazeris greitai pabrėžė, kad nesirenka „Google“, vadindamas „Google“ gripo tendencijas „puikia idėja“. „Lazer“ teigė, kad problemos, su kuriomis susiduria „Google Flu“, atsispindi kituose socialinės žiniasklaidos duomenų rinkiniuose. Pvz., „Twitter“ leidžia vartotojams žinoti, kas populiarėja svetainėje, o tai dar labiau išauga. [10 geriausių „Facebook“ auksinių taisyklių]

Svarbu žinoti apie internete surinktų didžiulių duomenų rinkinių ribas, sakė mokslininkas Scottas Golderis, dirbantis su tokiais duomenų rinkiniais bendrovėje „Context Relevant“. Žmonių, kurios naudojasi, pavyzdžiui, socialine žiniasklaida, pavyzdžiai nėra visos visuomenės grupės - jie gali būti, pavyzdžiui, jaunesni, turtingesni ar patyrę daugiau technologijų.

„Žmonės turi būti nuovokūs teigdami savo teiginius“, - „WordsSideKick.com“ pasakojo Golderis, nedalyvavęs Lazerio „Google“ kritikoje.

Golderis teigė, kad raktinių žodžių pasirinkimas ir socialinės žiniasklaidos platformos algoritmai kelia susirūpinimą. Prieš keletą metų jis dirbo prie projekto, kuriame tyrinėjo negatyvumą socialinėje žiniasklaidoje. Žodis „negraži“ vakarais vis šmėkščiojo. Paaiškėjo, kad žmonės naktimis nebuvo patyrę savivertės krizių. Jie kalbėjosi apie ABC laidą „Ugly Betty“.

Tačiau šios problemos nėra „Big Data“ mirties ženklas - pats Lazeris sako, kad „Big Data“ galimybės yra „protu nesuvokiamos“. Socialiniai mokslininkai visą laiką sprendžia nestabilių duomenų problemas, o „Google“ gripo duomenys yra pataisomi, teigė Lazeris.

„Mano supratimu, žvelgdamas į duomenis ir tai, kaip jie pasklido, tai yra tai, ką galėtumėte ištaisyti, jei„ Google “nepakeis savo verslo modelio“, - sakė jis. "Jūs tiesiog turite žinoti, kokia yra problema, ir galvoti apie pasekmes."

Lazeris reikalavo glaudesnio „Big Data“ tyrėjų ir tradicinių socialinių mokslininkų, dirbančių su mažais, kontroliuojamais duomenų rinkiniais, bendradarbiavimo. Golderis sutiko, kad abu požiūriai gali vienas kitą papildyti. Jis teigė, kad „Big Data“ gali užsiminti apie reiškinius, kuriuos reikia ištirti naudojant tradicinius metodus.

„Kartais nedideli duomenų kiekiai, jei tai teisingi duomenys, gali būti dar informatyvesni“, - teigė A. Golderis.

Stebėkite Stephanie Pappas „Twitter“ ir „Google+“. Sekite mus @gyvenimų mokslas, Facebook& „Google+“. Originalus straipsnis apie gyvą mokslą.


Vaizdo Papildas: .




Tyrimas


Geriau Nei Baterijos: Hibridinis Automobilis, Kuris Važiuoja Oru
Geriau Nei Baterijos: Hibridinis Automobilis, Kuris Važiuoja Oru

Kaip Dirbo Stephenas Hawkingas
Kaip Dirbo Stephenas Hawkingas

Mokslas Naujienos


Kodėl Jav Sklando Tiek Daug Tornadas
Kodėl Jav Sklando Tiek Daug Tornadas

Ko Tikėtis Iš „Super Kraujo Vilko“ Mėnulio Užtemimo
Ko Tikėtis Iš „Super Kraujo Vilko“ Mėnulio Užtemimo

Jutikliniai Ekranai Gali Sugadinti Mažylių Miegą
Jutikliniai Ekranai Gali Sugadinti Mažylių Miegą

Kaip Gerai Senstate? Šis Kraujo Tyrimas Gali Jums Pasakyti
Kaip Gerai Senstate? Šis Kraujo Tyrimas Gali Jums Pasakyti

„Roller Coasters“ Yra Skaitmeniniai Su „Vr“ Patobulintais Važiavimais
„Roller Coasters“ Yra Skaitmeniniai Su „Vr“ Patobulintais Važiavimais


LT.WordsSideKick.com
Visos Teisės Saugomos!
Dauginti Jokių Medžiagų Leidžiama Tik Prostanovkoy Aktyvią Nuorodą Į Svetainę LT.WordsSideKick.com

© 2005–2020 LT.WordsSideKick.com