Nybegynnerguide fra Semalt på skraping av websider

Data og informasjon på nettet vokser dag for dag. I dag bruker de fleste Google som den første kilden til kunnskap, enten de søker etter anmeldelser om en virksomhet eller prøver å forstå et nytt begrep.

Med datamengden tilgjengelig på nettet åpner det for mange muligheter for dataforskere. Dessverre er de fleste dataene på nettet ikke lett tilgjengelig. Det presenteres i et ustrukturert format referert til som HTML-format som ikke kan lastes ned. Dermed krever det kunnskapen og kompetansen til en dataforsker for å benytte seg av den.

Webskraping er prosessen med å konvertere data som er til stede i HTML-format til et strukturert format som lett kan nås og brukes. Nesten alle programmeringsspråk kan brukes til riktig skroting av nettet. I denne artikkelen bruker vi imidlertid R-språket.

Det er flere måter data kan skrapes fra nettet. Noen av de mest populære inkluderer:

1. Human Copy-Paste

Dette er en treg, men veldig effektiv teknikk for å skrape data fra nettet. I denne teknikken analyserer en person dataene selv og kopierer dem deretter til den lokale lagringen.

2. Tekstmønster matching

Dette er en annen enkel, men kraftfull tilnærming for å hente ut informasjon fra en nett. Det krever bruk av vanlige uttrykksmatchingsfasiliteter for programmeringsspråk.

3. API-grensesnitt

Mange nettsteder som Twitter, Facebook, LinkedIn, etc. gir deg offentlige eller private API-er som kan kalles ved å bruke standardkoder for å hente data i et foreskrevet format.

4. DOM-parsing

Merk at noen programmer kan hente dynamisk innhold opprettet av klientsiden skript. Det er mulig å analysere sider i et DOM-tre som er basert på programmene du kan bruke til å hente noen deler av disse sidene.

Før du går i gang med skraping av nett i R, må du ha en grunnleggende kunnskap om R. Hvis du er nybegynner, er det mange gode kilder som kan hjelpe. Du må også ha kunnskap om HTML og CSS. Siden de fleste dataforskere ikke er veldig gode med teknisk kunnskap om HTML og CSS, kan du imidlertid bruke en åpen programvare som Selector Gadget.

For eksempel, hvis du skraper data på IMDB-nettstedet for de 100 mest populære filmene som er utgitt i en gitt periode, må du skrape følgende data fra et nettsted: beskrivelse, runtime, sjanger, vurdering, stemmer, brutto inntjening, regissør og cast. Når du har kassert dataene, kan du analysere dem på forskjellige måter. For eksempel kan du lage en rekke interessante visualiseringer. Når du nå har en generell ide om hva en dataskraping er, kan du gjøre veien rundt det!

mass gmail