Semalt споделува лесен начин за вадење информации од веб-страници

Веб-scraping е популарен метод за добивање содржина од веб-страници. Специјално програмиран алгоритам доаѓа на главната страница на страницата и започнува да ги следи сите внатрешни врски, склопувајќи ги ентериерите на нуркачи што ги наведовте. Како резултат - подготвена CSV-датотека што ги содржи сите потребни информации што се наоѓаат во строг редослед. Како резултат на CSV може да се користи за во иднина создавајќи скоро уникатна содржина. И, генерално, како табела, ваквите податоци се од голема вредност. Замислете дека целиот список со производи на градежна продавница е претставен во табела. Покрај тоа, за секој производ, за секој вид и марка на производот, сите полиња и карактеристики се пополнуваат. Секој писател на копирање што работи за онлајн продавница, би бил среќен што има ваква датотека CSV.

Постојат многу алатки за вадење податоци од веб-страници или веб-стружења и не грижете се ако не сте запознаени со какви било јазични програми, во овој напис ќе ви покажам еден од најлесните начини - користејќи го Scrapinghub.

Како прво, одете на scrapinghub.com, регистрирајте се и најавете се.

Следниот чекор за вашата организација може да се прескокне.

Потоа ќе стигнете до вашиот профил. Треба да креирате проект.

Тука треба да изберете алгоритам (ние ќе го користиме алгоритмот "Portia") и ќе му дадете име на проектот. Да го наречеме некако необично. На пример, „111“.

Сега влегуваме во работниот простор на алгоритмот од каде треба да напишете URL на веб-страницата од која сакате да извлечете податоци од. Потоа кликнете на "Нов пајак".

Ние ќе одиме на страницата што ќе послужи како пример. Адресата се ажурира во заглавието. Кликнете на "Забележете ја оваа страница".

Поместете го курсорот на глувчето надесно што ќе направи менито да се појави. Овде ние сме заинтересирани за табулаторот "Извадена ставка", каде што треба да кликнете на "Уреди предмети".

Сепак, се прикажува празниот список на нашите полиња. Кликнете на "+ поле".

Сè е едноставно тука: треба да креирате список на полиња. За секоја ставка, треба да внесете име (во овој случај, назив и содржина), наведете дали е потребно ова поле ("Задолжително") и дали може да варира ("Вари"). Ако наведете дека една ставка е „потребна“, алгоритмот едноставно ќе прескокне страници каде што нема да може да го пополни ова поле. Ако не биде обележано, процесот може да трае вечно.

Сега едноставно кликнете на полето што ни треба и означете што е тоа:

Направено? Потоа, во заглавието на веб-страницата, кликнете "Зачувај примерок". После тоа, можете да се вратите на работниот простор. Сега алгоритмот знае како да добиеме нешто, треба да поставиме задача за тоа. За да го направите ова, кликнете на "Објави ги промените".

Одете во табла со задачи, кликнете на "Стартувај пајак". Изберете веб-страница, приоритет и кликнете на "Стартувај".

Па, стружењето е во тек. Неговата брзина е прикажана со тоа што покажувајќи го курсорот на бројот на испратени барања:

Брзината на подготвување жици во CSV - со покажување на друг број.

За да видите список на веќе направени артикли, кликнете на овој број. Seeе видите нешто слично:

Кога е готово, резултатот може да се зачува со кликнување на ова копче:

Тоа е тоа! Сега можете да извлечете информации од веб-страници без искуство во програмирање.