Semalt veb-sahifalarni skrape qilish uchun 5 bosqichni taklif qiladi

Scrapy ochiq veb-sayt va turli veb-saytlardan ma'lumot olish uchun asosdir. U API-larni ishlatadi va Python-da yozilgan. Hozirgi vaqtda Scrapy Scrapinghub Ltd nomli veb- kazish kompaniyasi tomonidan olib boriladi.

Bu Scrapy-dan foydalanib veb-qidiruv vositasini qanday yozish, Craigslist-ni tahlil qilish va CSV formatida ma'lumotlarni saqlash bo'yicha oddiy qo'llanma. Ushbu darslikning beshta asosiy bosqichlari quyida keltirilgan:

1. Yangi Scrapy loyihasini yarating

2. Veb-saytni o'rganish va ma'lumot olish uchun o'rgimchakni yozing

3. Buyruq satri yordamida qirqilgan ma'lumotlarni eksport qiling

4. Havolalarni kuzatib borish uchun o'rgimchakni o'zgartiring

5. O'rgimchak dalillaridan foydalaning

1. Loyihani yarating

Birinchi qadam - bu loyihani yaratish. Siz Scrapy-ni yuklab olishingiz va o'rnatishingiz kerak edi. Uning qidirish satrida ma'lumotlarni saqlamoqchi bo'lgan katalog nomini kiritishingiz kerak. Scrapy ma'lumotni olish uchun turli xil o'rgimchaklardan foydalanadi va bu o'rgimchaklar kataloglarni yaratish uchun dastlabki talablarni bajaradilar. O'rgimchakni ishlashi uchun siz kataloglar ro'yxatiga tashrif buyurishingiz va u erga ma'lum bir kodni kiritishingiz kerak. O'zingizning joriy katalogingizdagi fayllarga e'tibor bering va ikkita yangi faylga e'tibor bering: quotes-a.html va quotes-b.html.

2. Veb-saytni o'rganish va ma'lumotni olish uchun o'rgimchakni yozing:

O'rgimchakni yozish va ma'lumotlarni olishning eng yaxshi usuli bu Scrapy-ning qobig'ida turli xil selektorlarni yaratishdir. Siz har doim URL-larni qo'shtirnoq ichiga kiritishingiz kerak; aks holda, Scrapy bu URL-larning xususiyatlarini yoki nomlarini darhol o'zgartiradi. O'rgimchakni tegishli ravishda yozish uchun URL atrofida ikkita tirnoq ishlatishingiz kerak. Siz index.extract_first () ni ishlatishingiz va indeks xatosidan qochishingiz kerak.

3. Buyruq satri yordamida parchalangan ma'lumotlarni eksport qiling:

Buyruq satridan foydalanib, parchalangan ma'lumotlarni eksport qilish muhimdir. Agar siz uni eksport qilmasangiz, aniq natijalarga erisha olmaysiz. O'rgimchak foydali ma'lumotlarni o'z ichiga olgan turli xil kataloglarni yaratadi. Ushbu ma'lumotni yaxshiroq eksport qilish uchun hosilning Python kalit so'zlaridan foydalanishingiz kerak. JSON fayllariga ma'lumotlarni import qilish mumkin. JSON fayllari dasturchilar uchun foydalidir. JQ kabi vositalar har qanday ma'lumotni muammosiz eksport qilishga yordam beradi.

4. Havolalarni kuzatib borish uchun o'rgimchakni o'zgartiring:

Kichik loyihalarda siz o'rgimchaklarni havolalarni mos ravishda o'zgartirish uchun o'zgartirishingiz mumkin. Ammo bu katta hajmdagi ma'lumotlarni skrining loyihalari bilan zarur emas. O'rgimchakni o'zgartirganda, mahsulot quvurlari uchun to'ldirish fayli o'rnatiladi. Ushbu fayl o'quv qo'llanmasi / pipelines.py qismida joylashgan bo'lishi mumkin. Scrapy-ning yordami bilan siz murakkab o'rgimchaklar qurib, ularning manzillarini istagan paytda o'zgartirishingiz mumkin. Siz bir vaqtning o'zida bir nechta saytlarni qazib olishingiz va ma'lumotlarni yig'ish bo'yicha turli xil loyihalarni amalga oshirishingiz mumkin.

5. O'rgimchak dalillaridan foydalaning:

Parse_author qayta qo'ng'iroq qilish - bu dinamik veb-saytlardan ma'lumotlarni olish uchun ishlatilishi mumkin bo'lgan o'rgimchak dalilidir. Shuningdek, o'rgimchaklarga ma'lum bir kod bilan buyruq satrining dalillarini taqdim etishingiz mumkin. O'rgimchak dalillari hech qachon o'rgimchak atributlariga aylanmaydi va ma'lumotlarning umumiy ko'rinishini o'zgartiradi.

Ushbu o'quv qo'llanmada biz faqat Scrapy asoslarini yoritdik. Ushbu vositaning xususiyatlari va imkoniyatlari juda ko'p. Uning xususiyatlari haqida ko'proq bilish uchun siz Scrapy-ni yuklab olishingiz va faollashtirishingiz kerak.