How to use APscheduler with scrapy

Question

have this code who run scrapy crawler from script(http://doc.scrapy.org/en/latest/topics/practices.html#run-scrapy-from-a-script). But it doesn't work.

from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log,signals
from spiders.egov import EgovSpider
from scrapy.utils.project import get_project_settings

def run():
    spider =EgovSpider()
    settings = get_project_settings()
    crawler = Crawler(settings)
    crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
    crawler.configured
    crawler.crawl(spider)
    crawler.start()
    log.start()
    reactor.run()


from apscheduler.schedulers.twisted import TwistedScheduler
sched = TwistedScheduler()
sched.add_job(run, 'interval', seconds=10)
sched.start()

My spider:

import scrapy

class EgovSpider(scrapy.Spider):
    name = 'egov'
    start_urls = ['http://egov-buryatia.ru/index.php?id=1493']


    def parse(self, response):

        data = response.xpath("//div[@id='main_wrapper_content_news']//tr//text()").extract()
        print data
        print response.url
        f = open("vac.txt","a")
        for d in data:
            f.write(d.encode(encoding="UTF-8") + "\n")

        f.write(str(now))
        f.close()

If i replace line "reactor.run()", spider has started one times after 10 seconds:

from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log,signals
from spiders.egov import EgovSpider
from scrapy.utils.project import get_project_settings

def run():  
    spider =EgovSpider()
    settings = get_project_settings()
    crawler = Crawler(settings)
    crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
    crawler.configured
    crawler.crawl(spider)
    crawler.start()
    log.start()

from apscheduler.schedulers.twisted import TwistedScheduler
sched = TwistedScheduler()
sched.add_job(run, 'interval', seconds=10)
sched.start()
reactor.run()

I am low experienced with python and english :) Please, help me.

Okay so what's wrong with the last piece of code? You said it started after 10 seconds like it was supposed to. — Alex Grönholm, Apr 21 '15 at 13:57
If you are still looking for an answer [here](http://kirankoduru.github.io/python/running-scrapy-programmatically.html) is a blogpost I wrote not long ago about how to implement it. Also you need version 0.24 for this to work. — , Nov 02 '15 at 14:40

zstbsqx · Answer 1 · 2020-03-09T10:20:53.667

2

I encountered the same problem today. Here is some information.

Twisted reactor can't restart once it runs and stops. You should start a long-runing reactor and add crawler task(s) periodly.

To further simplify code, you can use CrawlerProcess.start(), which includes reactor.run().

from scrapy.crawler import CrawlerProcess
from spiders.egov import EgovSpider
from scrapy.utils.project import get_project_settings
from apscheduler.schedulers.twisted import TwistedScheduler

process = CrawlerProcess(get_project_settings())
sched = TwistedScheduler()
sched.add_job(process.crawl, 'interval', args=[EgovSpider], seconds=10)
sched.start()
process.start(False)    # Do not stop reactor after spider closes

edited Mar 09 '20 at 10:20

answered Feb 15 '17 at 08:32

zstbsqx

60
8

How to do it with multiple Scrapy spiders? – Protik Nag Mar 08 '20 at 10:14
How can you have only one instance running? max_instances=1 does not seem to work. Even though a previous crawl is still running, a new one will get started. – systderr Aug 11 '20 at 19:52
This won't run with Django: the process will block the server initialization and keep on scraping happily forever and after. – Sy Ker Jan 14 '22 at 11:42
What if you want to add two spiders with 2 jobs? Can I reuse the same CrawlerProcess instance (`process`)? – Melroy van den Berg Mar 25 '22 at 21:56

How to use APscheduler with scrapy

1 Answers1