Semalt - kuidas veebilehti kraapida?

Beautiful Soup on Pythoni raamatukogu, mida kasutatakse laialdaselt veebilehtede kraapimiseks, luues XML- ja HTML-dokumentidest parsimispuu. Veebikaabitsat, veebisaitidelt ja lehtedelt andmete eraldamise tehnikat, kasutatakse laialdaselt andmete analüüsimisel ja haldamisel. Enamasti on Pythoni programmeerimiskeel andmeteaduse eeltingimus.

Python 3-l on kraapimisriistad ja moodulid, mida saate oma andmehaldusprojektile rakendada. Praegu töötab see nimega Beautiful Soup 4, see moodul ühildub nii Python 3 kui ka Python 2.7-ga. Ilus supp 4 moodul on võimeline looma ka suletava sildisupi jaoks parsipuu. Selles õpetuses saate teada, kuidas lehte kraapida ja kraabitud andmed CSV-faili kirjutada.

Alustamine

Alustamiseks seadistage arvutisse server või kohalik Pythoni kodeerimiskeskkond. Peaksite oma arvutisse installima ka mooduli Kaunis supp ja taotlused. Vajalik eeltingimus on ka teadmised töötada mõlema mooduliga. Samuti on eeliseks HTML-i märgistamise ja ülesehituse tundmine.

Teie andmete mõistmine

Selles kontekstis kasutatakse kauni supi 4 kasutamise mõistmiseks Rahvusliku Kunstigalerii tegelikke andmeid. Riiklik kunstigalerii koosneb 120 000 teosest, mille on valmistanud umbes 13 000 kunstnikku. The Art asub Washingtonis, Ameerika Ühendriikides.

Veebiandmete ekstraheerimine Beautiful Soupiga pole nii keeruline. Näiteks kui keskendute tähele Z, märkige ja pange üles loendis olev eesnimi. Sel juhul on eesnimi Zabaglia, Niccola. Järjepidevuse huvides märkige lehtede arv ja selle lehe viimase esitaja nimi.

Kuidas importida taotlusi ja raamatukogu Beautiful Soup

Teekide importimiseks aktiveerige oma Python 3 programmeerimiskeskkond. Kontrollige, kas olete programmeerimiskeskkonnaga samas kataloogis. Alustamiseks käivitage järgmine käsk. my_env / bin / aktiveeri.

Looge uus fail ja alustage raamatukogu Beautiful Soup and Requests importimist. Taotluste teek võimaldab teil kasutada Pythoni programmides HTTP-d loetavas vormingus. Beautiful Soup seevastu töötab lehtede kiireks kraapimiseks. Kauni supi importimiseks kasutage nuppu bs4.

Kuidas veebilehte koguda ja parsida

Taotluste abil koguge oma esimese lehe URL. Esimese lehe URL omistatakse muutujalehele. Looge BeautifulSoup-i objekt päringutest ja parsige objekt Pythoni parserist.

Selle õpetuse eesmärk on koguda linke ja kunstnike nimesid. Näiteks võite koguda kunstnike kuupäevi ja rahvusi. Windowsi kasutajate jaoks paremklõpsake esitaja eesnimel. Sel juhul kasutage Zabaglia, Niccola. Mac OS-i kasutajate jaoks koputage "CTRL" ja klõpsake nime. Veebiarendajate tööriistadele juurdepääsu saamiseks klõpsake ekraanil hüpikaknaid menüüd „Kontrolli elementi”. Printige kunstnike nimed välja, et Beautiful Soup saaks puu kiiresti parsida.

Alumiste linkide eemaldamine

Veebilehe alumiste linkide eemaldamiseks kontrollige DOM-i, paremklõpsake elemendil. Te saate tuvastada, et lingid asuvad HTML-tabeli all. Kasutades Beautiful Soupi, kasutage sordipuu siltide eemaldamiseks "lagundamismeetodit".

Kuidas sildist sisu tõmmata

Te ei pea kogu lingi silti printima, materjali sildilt eemaldamiseks kasutage rakendust Beautiful Soup. Esitajatega seotud URL-e saate lüüa ka Beautiful Soup 4 abil.

Kaabitud andmete hõivamine CSV-faili

CSV-fail võimaldab salvestada struktureeritud andmeid lihttekstina, vormingus, mida enamasti kasutatakse andmelehtede jaoks. Soovitatav on teadmine lihtsate tekstifailide käsitsemisel Pythonis.

Veebiandmete ekstraheerimist kasutatakse lehtede kraapimiseks ja teabe saamiseks. Olge tähelepanelik nende veebisaitide suhtes, kust pärinete teavet. Mõned dünaamilised veebisaidid piiravad veebisaitide hankimist nende saitidelt. Lehe kraapimine Beautiful Soupi ja Python 3 abil on nii lihtne.