Ръководство за начинаещи от Semalt на сайта за бракуване

Данните и информацията в мрежата растат с всеки изминал ден. В наши дни повечето хора използват Google като първи източник на знания, независимо дали търсят отзиви за бизнес или се опитват да разберат нов термин.

С количеството данни, достъпно в мрежата, това разкрива много възможности за учените по данни. За съжаление, повечето от данните в мрежата не са лесно достъпни. Представя се в неструктуриран формат, посочен като HTML формат, който не може да бъде изтеглян. По този начин, той изисква знанията и експертния опит на специалиста по данни, за да ги използва.

Премахването на уеб е процесът на преобразуване на данни, налични в HTML формат, в структуриран формат, който може лесно да се получи и използва. Почти всички езици за програмиране могат да се използват за правилно бракуване на уеб. В тази статия обаче ще използваме езика R.

Има няколко начина, по които данните могат да бъдат изтрити от мрежата. Някои от най-популярните включват:

1. Човешко копие-поставяне

Това е бавна, но много ефективна техника за изстъргване на данни от мрежата. При тази техника човек анализира данните и след това ги копира в локалното хранилище.

2. Съответствие на текстовия шаблон

Това е друг прост, но мощен подход за извличане на информация от интернет. Това изисква използване на средства за редовно съвпадение на изрази на програмните езици.

3. API интерфейс

Много уебсайтове като Twitter, Facebook, LinkedIn и т.н. ви предоставят обществени или частни API, които могат да бъдат извиквани с помощта на стандартни кодове за извличане на данни в предписан формат.

4. DOM Парсинг

Имайте предвид, че някои програми могат да извличат динамично съдържание, създадено от клиентски скриптове. Възможно е да се анализира страниците в DOM дърво, което се основава на програмите, които можете да използвате за извличане на някои части от тези страници.

Преди да се впуснете в scraping web в R, трябва да имате основни познания за R. Ако сте начинаещ, има много страхотни източници, които могат да ви помогнат. Освен това се изисква да имате познания по HTML и CSS. Тъй като повечето учени за данни не са много здрави с техническите познания за HTML и CSS, можете да използвате отворен софтуер, като Selector Gadget.

Например, ако записвате данни на уебсайта на IMDB за 100-те най-популярни филма, пуснати в даден период, трябва да изстържете следните данни от сайт: описание, време на изпълнение, жанр, рейтинг, гласове, брутна печалба, режисьор и актьорски състав. След като бракувате данните, можете да ги анализирате по различни начини. Например, можете да създадете редица интересни визуализации. Сега, когато имате обща представа за това какво е бракуване на данни, можете да си заобиколите!