Como Desenvolvedor Back-end (Web Scraping / Bots), sua missão será desenvolver bots avançados para web scraping, criando soluções robustas e escaláveis. Você enfrentará desafios como quebra de captchas, uso de proxies e simulação de interações humanas para garantir a eficiência e precisão dos dados.
Se você é apaixonado por tecnologia, desafios complexos e deseja contribuir com soluções inovadoras, venha fazer parte da nossa equipe e ajude a levar nossos projetos a novos patamares!
Responsabilidades:
Desenvolvimento de bots para coleta automatizada de dados, garantindo eficiência e resiliência.
Soluções para superar barreiras como captchas, bloqueios de IP e verificações anti-bot.
Implementação e otimização de sistemas de roteamento e gerenciamento de proxies (residenciais, datacenter, rotativos, etc.)
Integração de práticas de scraping com diretrizes legais e éticas.
Monitoramento de bots em cenários de alto volume de dados, garantindo desempenho e escalabilidade.
Realizar logging e debugging para análise e melhorias contínuas dos bots.
Metodologias de desenvolvimento ágil (SCRUM ou similares).
Requisitos:
Linguagem: Python.
Experiência em desenvolvimento, com foco em automação e scraping.
Frameworks e bibliotecas de scraping: Scrapy, Selenium.
Experiência com Playwright ou Puppeteer para scraping baseado em navegadores.
Quebra de captchas: Conhecimento em OCR (Tesseract) e integração com serviços como 2Captcha, Anti-Captcha, DeathByCaptcha).
Familiaridade com soluções de machine learning para quebra de captchas customizados.
Gerenciamento de proxies: Experiência com Rotating Proxies e pools de proxies.
Gerenciamento de Headers e Cookies: Para simular requisições humanas.
Familiaridade com mecanismos de proteção (Cloudflare) e estratégias para superá-los.
Experiência com WebSockets e scraping em tempo real.
Utilização de containers (Docker) para deploy e gerenciamento de bots.
Desenvolvimento em ambientes Unix/Linux.
Desejável:
Conhecimento em linguagem de programação Ruby.
Experiência em ferramentas de análise de tráfego HTTP, como Fiddler, Wireshark ou Burp Suite.
Noções de segurança da informação e estratégias para contornar medidas anti-scraping.
Familiaridade com crawling distribuído e sistemas de fila, como RabbitMQ, Kafka ou Celery.
Experiência em cloud computing (AWS, Azure, GCP) para hospedagem e escalabilidade dos bots.
Desenvolvimento de APIs RESTful para integração com sistemas externos.
Gostou? Então, bora se candidatar e #SeTornarSpeedioLover?
ryd
Verity Group
Penbrothers
Leadtech Group
Coinbase