Semalt web sahypalaryny döwmek üçin 5 ädim teklip edýär

Scrapy, dürli web sahypasyndan maglumat almak üçin açyk çeşme we çarçuwadyr. API ulanýar we Python-da ýazylýar. Scrapy häzirki wagtda Scrapinghub Ltd. atly web gyrgyç kompaniýasy tarapyndan hyzmat edilýär.

“Scrapy” -y ulanyp, web gözlegçisini nädip ýazmalydygyny, “Craigslist” -i derňemäge we maglumatlary CSV formatda saklamaga ýönekeý sapak. Bu gollanmanyň bäş esasy ädimi aşakda agzalýar:

1. Täze “Scrapy” taslamasyny dörediň

2. Web sahypasyny gözlemek we maglumatlary çykarmak üçin bir möý ýazyň

3. Buýruk setirini ulanyp, gyrylan maglumatlary eksport ediň

4. Salgylary yzarlamak üçin möý çalşyň

5. Öýjükli argumentleri ulanyň

1. Taslama dörediň

Birinji ädim taslama döretmekdir. “Scrapy” -ny göçürip almaly bolarsyňyz. Gözleg setirinde maglumatlary saklamak isleýän katalogyňyzyň adyny girizmeli. Scrapy maglumat çykarmak üçin dürli örümçileri ulanýar we bu örümçiler katalog döretmek üçin ilkinji haýyşlary edýärler. Bir möý işlemek üçin, kataloglaryň sanawyna girip, şol ýere belli bir kod girizmeli. Häzirki bukjadaky faýllara göz aýlaň we iki sany täze faýla üns beriň: quotes-a.html we quotes-b.html.

2. Web sahypasyny gözlemek we maglumatlary çykarmak üçin bir möý ýazyň:

Öýjük ýazmagyň we maglumatlary çykarmagyň iň gowy usuly, Scrapy-nyň gabygynda dürli saýlaýjylary döretmekdir. URL-leri elmydama sitata bilen berkitmeli; bolmasa, Scrapy şol URL-leriň tebigatyny ýa-da atlaryny derrew üýtgeder. Öýjükli ýerlikli ýazmak üçin URL-de goşa sitata ulanmaly. .Extract_first () ulanmaly we indeks ýalňyşlygyndan gaça durmaly.

3. Buýruk setirini ulanyp, gyrylan maglumatlary eksport ediň:

Gyrylan maglumatlary buýruk setirini ulanyp eksport etmek möhümdir. Eksport etmeseňiz, takyk netije almarsyňyz. Öýjük peýdaly maglumatlary öz içine alýan dürli kataloglary döreder. Bu maglumatlary has gowy eksport etmek üçin hasyl Python açar sözlerini ulanmaly. JSON faýllaryna maglumatlary import etmek mümkin. JSON faýllary programmistler üçin peýdalydyr. JQ ýaly gurallar gyrylan maglumatlary hiç hili kynçylyksyz eksport etmäge kömek edýär.

4. Salgylary yzarlamak üçin möý çalşyň:

Kiçijik taslamalarda baglanyşyklary dogry yzarlamak üçin möýleri üýtgedip bilersiňiz. Largeöne uly göwrümli maglumatlary döwmek taslamalary bilen zerur däl. Örümçini üýtgedeniňizde, Turbageçirijiler üçin ýer eýesi faýly gurlar. Bu faýl sapak / pipeline.py bölüminde ýerleşip biler. “Scrapy” arkaly çylşyrymly örümçileri gurup we ýerleşýän ýerini islän wagtyňyz üýtgedip bilersiňiz. Bir wagtyň özünde birnäçe sahypany çykaryp, dürli maglumatlary çykarmak taslamalaryny amala aşyryp bilersiňiz.

5. Öýjükli argumentleri ulanyň:

Parse_author jaňy dinamiki web sahypalaryndan maglumatlary çykarmak üçin ulanylýan möý argumentidir. Öýjüklere belli bir kod bilen buýruk setiriniň argumentlerini hem berip bilersiňiz. Öýjük argumentleri hiç wagt örümçilik häsiýetlerine öwrülýär we maglumatlaryňyzyň umumy görnüşini üýtgedýär.

Bu gollanmada diňe “Scrapy” -yň esaslaryny ara alyp maslahatlaşdyk. Bu gural üçin köp aýratynlyklar we wariantlar bar. Aýratynlyklary barada has giňişleýin bilmek üçin “Scrapy” -ny göçürip almaly we işjeňleşdirmeli.

mass gmail