Back to Question Center
0

Водич за почетници од семалтот за стружење на веб страници

1 answers:

Податоците и информациите на интернет се зголемуваат од ден на ден. Денес, повеќето луѓе го користат Google како прв извор на знаење, без разлика дали тие бараат рецензии за бизнис или се обидуваат да разберат нов термин.

Со количината на податоци достапни на интернет, таа отвора многу можности за научниците за податоци. За жал, повеќето од податоците на интернет не се достапни. Таа е претставена во неструктуриран формат наречен HTML формат, кој не може да се преземе. Така, потребно е знаење и експертиза на научникот за податоци да го искористи.

Веб стружење е процес на конвертирање на податоците присутни во HTML формат во структуриран формат кој лесно може да се пристапи и да се користи. Речиси сите програмски јазици можат да се користат за правилно отстранување на веб. Меѓутоа, во оваа статија ќе го користиме јазикот Р.

Постојат неколку начини на кои податоците може да се извлечат од веб. Некои од најпопуларните вклучуваат:

1. Човечко копирање-паста

Ова е бавна, но многу ефикасна техника на стружење на податоци од мрежата. Во оваа техника, лицето ги анализира податоците себе и потоа го копира во локалното складирање. 19) 2. Усогласување на моделот на текстот

Ова е уште еден едноставен, но моќен пристап за извлекување на информации од интернет. Треба да се користат соодветни објекти за совпаѓање на програмските јазици

3. API интерфејс

Многу веб-страници, како што се Твитер, Фејсбук, Скопје, и др., Ви обезбедуваат јавни или приватни API-и кои може да се повикаат со користење на стандардни шифри за да се добијат податоци во пропишан формат.

4. Парсирање на DOM 20)

Имајте на ум дека некои програми можат да повратат динамички содржини креирани од клиентските скрипти. Можно е да се анализираат страниците во дрво на DOM која се базира на програмите што можете да ги користите за да добиете некои делови од овие страници. )

Пред да се качат на веб-стружење во R, треба да имате основни познавања за R. Ако сте почетник, постојат многу големи извори кои можат да помогнат. Исто така, од вас се бара да имате познавање на HTML и CSS. Сепак, бидејќи повеќето научници за податоци не се многу звучни со техничко познавање на HTML и CSS, можете да користите отворен софтвер како што е Gadget Selector.

На пример, ако ги грешите податоците на веб-страницата на IMDB за 100-те најпопуларни филмови објавени во даден период, треба да ги избришете следните податоци од сајтот: опис, траење, жанр, рејтинг, гласови , бруто заработувачка, режисер и актер. Откако ќе ги отстраните податоците, можете да го анализирате на различни начини. На пример, можете да создадете голем број на интересни визуализации Source . Сега, кога имате општа идеја за тоа што е укинување на податоците, можете да го направите тоа околу тоа!

December 7, 2017