Semalt: Познати веб-страници за непокривање

За да ги избришете податоците што ги сакате рачно, треба да имате одлични вештини за програмирање. Алтернативно, можете да користите низа алатки за екстракција на веб податоци кои имаат за цел да ги прочитате, структуираат и скрепете податоците во специфичен формат. Како и да е, некои веб-страници се незапирливи, што значи дека или користат техники против стружење или редовно го менуваат обележувањето. На пример, LinkedIn, Alibaba и Facebook бараат детали за најавување, нудат влез во CAPTCHA и блокирање на IP адреси за да обезбедат заштита и приватност на нивните корисници.

1. Фејсбук:

Фејсбук е една од најпознатите веб-страници за социјално вмрежување што брои над 20 милиони активни корисници низ целиот свет. Постојат голем број на апликации и програми за стружење податоци кои имаат за цел да извлечат индивидуални информации од Фејсбук. За жал, повеќето алатки не ни даваат точни и читливи податоци. Фејсбук им отежнува на спамерите и хакерите да собираат информации за своите корисници. Може да се добие само со помош на разгледувач на HTML како што е Пајтон, но повеќето од веб-администраторите и хонорарците не ги ни знаат основите на Пајтон. Неодамна, беше лансиран стругалка за „Фејсбук“ за да извлече витални информации од оваа веб-страница за социјално вмрежување. Со стругалка на Фејсбук, можете да соберете само имиња и адреси на е-пошта на корисниците на Фејсбук. Но, ако сакате да соберете детални податоци, не можете да ја користите оваа алатка или која било друга слична стругалка.

2. LinkedIn:

LinkedIn е друга веб-страница за социјално вмрежување што е невозможно да се уништи. Сепак, можете делумно да извлечете податоци од неколку веб-страници, но повеќето од информациите се недостапни. Можете да ги искористите информациите само од јавниот профил на LinkedIn користејќи ги Labs Import.io или Кимоно. Пазарот не може да ги искористи услугите за стружење заради силните мерки на безбедност на LinkedIn. Сепак, тие започнаа да користат Lead Extractor, што помага да се изнајдат јавни профили. Оваа алатка може да ги уништи линковите, имињата и адресите на е-пошта на профилот. Но, ако сакате да добиете Skype ID, Yahoo Messenger ID, целосна адреса и лична карта на Твитер на корисник, LinkedIn нема да ви овозможи да го сторите тоа.

3. Алибаба:

Алибаба е технолошки конгломерат кој нуди услуги за бизнис до потрошувачи преку Интернет. За жал, не постои начин да се изнајдат податоци од оваа веб-страница. За разлика од Amazon и eBay, Алибаба им отежна на своите корисници да извлечат информации за своите производи, слики, описи и цени. Во 2015 година, во јавноста беа воведени голем број алатки кои можат лесно да ги уништуваат податоците од Алибаба. Повеќето алатки се плаќаат и не ги исполнуваат очекувањата од стартап. Алибаба работи широк спектар на бизниси низ целиот свет и ги поврзува купувачите со добавувачите. Во меѓувреме, тоа ја гарантира нивната приватност и не дозволува никој да ги пребарува податоците. Од октомври 2017 година, Алибаба има повеќе од 500 милиони месечни активни корисници низ својата платформа. Алибаба дури и ги надмина големите играчи на облак како Амазон, Гугл и Мајкрософт во растот на приходите од облак. Имплементирал најдобри стратегии за да ја обезбеди приватноста на своите добавувачи и ги блокира сите сомнителни IP адреси за неколку секунди.