Webscrapping com Node.js

Eu crio webcrawlers e mecanismos de busca tem 7 anos na data que escrevo este post, sendo um dos empreendimentos digitais mais bem sucedidos da minha carreira o Busca Acelerada, um buscador de classificados automotivos. Já falei de como você pode criar buscadores em outras oportunidades que listo abaixo:

No entanto, eu nunca havia escrito antes sobre como criar um webcrawler antes, ou seja, um script que automaticamente percorre páginas web em busca de informações a serem indexadas para seu buscador. Na verdade eu não vou mostrar hoje como criar um webcrawler completo (que é uma tarefa que une muitos conceitos para um post só), mas sim como fazer um algoritmo que coleta informações de páginas HTML e armazena em um banco de dados, uma técnica chamada webscrapping.

Para que você consiga acompanhar este tutorial é importante que já esteja familiarizado com Node.js e MongoDB, que trato bastante aqui no blog em posts como esse e em meu livro sobre o assunto.

Veremos neste post:

  1. Utilidade do webscrapping
  2. Criando o projeto
  3. Programando o webscrapper
  4. Trabalhando com os dados

Vamos lá!

#1 – Utilidade do Webscrapping

Basicamente webscrapping consiste em ler o conteúdo HTML de páginas web, extrair as informações que você deseja se baseando em padrões de elementos (tags), armazenar no seu banco de dados e ignorar o resto, avançando para a próxima página.

Webscrapping é útil em diversos cenários e largamente utilizado por grandes empresas de tecnologia e inteligência competitiva.

  • você pode fazer scrapping de redes sociais para descobrir tópicos que estão na moda, como o Sentimonitor faz
  • você pode fazer scrapping de endereços de email disponíveis em websites para vender como o Hunter.io faz
  • você pode fazer scrapping de informações de outros sites para usar no seu, como o Google faz
  • você pode fazer scrapping de preços de produtos em ecommerces para criar comparadores, como o Buscapé faz

Note, no entanto, que muitos websites consideram webscrapping errado, violando seus termos de uso. Sendo assim, utilize as técnicas apresentadas neste artigo com cuidado pois caso o seu webcrawler fique visitando demais o mesmo site é bem possível que seu IP seja bloqueado ou até mesmo que você receba emails com ameaças.

Faça webscrapping por sua própria conta e risco.

#2 – Criando o projeto

Agora que sabe o que é e para que serve webscrapping, vamos criar este projeto.

Crie uma pasta para salvar os fontes deste projeto na sua máquina. Eu chamei a minha de webscrapper.

Entre na pasta webscrapper via terminal e rode o seguinte comando:

Siga o passo-a-passo que irá aparecer para criar as configurações desse projeto Node.js. Depois disso, vamos instalar as dependências que precisaremos neste projeto, usando o comando abaixo:

“npm i” significa “NPM Install”, o “-S” indica que as dependências devem ser salvas no seu packages.json e os demais nomes são os pacotes que devem ser instalados:

  • request: biblioteca para fazer requisições HTTP
  • request-promise: oferece suporte a promises com request (uma nova forma de lidar com os callbacks do ES7)
  • cheerio: oferece as funcionalidades de seletores do JQuery em Node.js

Agora crie um arquivo index.js na raiz do seu projeto e vamos seguir em frente pois o setup está pronto!

Ah, sugiro usar o Visual Studio Code para ser mais produtivo programando em Node.js. É gratuito e multiplataforma.

#3 – Programando o Webscrapper

Comece o seu index.js adicionando as referências às bibliotecas que instalamos anteriormente:

A biblioteca request-promise aceita um objeto como input de suas requests e retorna uma promise. Basicamente este objeto, que chamarei de options, precisa de duas coisas:

  1. a URL que vamos fazer scrapping
  2. a função de transformação com o HTML retornado da página

Nesta função de transformação vamos dizer ao request-promise para delegar ao cheerio o carregamento do HTML. O código abaixo demonstra um objeto options válido, apontando para a página com os resultados do Brasileirão Série A do Globo Esporte:

A ideia aqui é pegar as informações da tabela do Brasileirão diretamente do site do Globo Esporte, provavelmente o mais atualizado do país neste sentido. O que vou fazer com esses dados? Eu não tenho nem ideia, mas achei que seria um bom exemplo…

Agora para fazer a requisição é bem simples, basta usarmos o objeto rp como uma função passando o objeto options para ele por parâmetro. Como é uma função que retorna uma promise JS, usaremos then e catch para lidar com o callback de retorno e com um possível erro, respectivamente:

Se você seguiu os passos corretos até agora, abra o terminal e na pasta do projeto webscrapper digite o seguinte comando para executar este arquivo:

Como resultado, você deve ver no terminal uma mensagem semelhante à essa, indicando que o HTML de retorno do site foi carregado com sucesso:

Isso quer dizer que seu webscrapper está funcionando!

#4 – Trabalhando com os dados

Agora que você tem um webscrapper simples porém funcional, é hora de trabalhar com aquele objeto que representa o documento HTML retornado pelo request-promise e transformado pelo cheerio.

Se você nunca usou JQuery antes (no meu livro de Node.js é um dos tópicos de front-end), o mais importante aqui é bem simples de aprender: seletores. Basicamente todo seletor começa com o cifrão ($) seguido de parênteses e o identificador do seletor que pode ser:

  • #idDoElemento
  • .classeDoElemento
  • tagDoElemento
  • tag[atributo=valor]

E muito mais, mas esses aí são os principais. Ou seja, se quiser carregar em memória um elemento HTML cujo id seja divCadastro, em JQuery você faria o seguinte:

E depois na sequência poderia chamar funções para pegar informações deste elemento, incluindo seu texto, seu HTML, seus atributos, seus nós-filhos, etc.

E cheerio trabalha exatamente desta forma!

Para entender a informação que vamos pegar, é sempre útil ver o código-fonte da página que estamos fazendo scrapping ou melhor ainda: usar o F12 do Google Chrome para inspecionar elementos específicos, como fiz na imagem abaixo para entender a estrutura HTML da tabela do brasileirão.

HTML do Brasileirão
HTML do Brasileirão

Note que todas as linhas com nomes de clubes (tr) possuem a classe ‘tabela-body-linha’, sendo assim, fica fácil de fazer um seletor por essa classe e com um laço descobrir todas as linhas. Dentro de cada linha, usamos a função find para achar os elementos que possuem a classe com o nome de cada um dos times (tabela-times-time-nome):

Se você executar agora, verá no console o nome de todos os times da série A do Brasileirão (desculpe Internacional/RS, mas você não está na lista XD ).

Para encerrar, vou modificar o código uma última vez e colocá-lo todo abaixo, para pegar além do nome do time, a posição atual dele na tabela, guardando estas informações em um array JSON que facilmente você poderia depois salvar em um banco de dados como o MongoDB, como já mostrei em outros posts.

Adicionei alguns códigos adicionais para incluir uma função de processamento, proporcionando um ponto onde facilmente você pode colocar sua lógica de persistência de dados. Também coloquei um teste para evitar salvar dados em branco (algo que com um pouco mais de paciência pode ser melhor filtrado com o cheerio).

O resultado esperado deste simples webscrapper, na data que escrevo este post é o array JSON abaixo impresso no console:

Atente ao fato de que muitos sites alteram o DOM da página usando JavaScript e que algumas vezes você não conseguirá ter acesso aos elementos HTML via cheerio. Nestes casos a técnica correta envolve usar headless browsers como o Phantom.

Mas essa é uma técnica muito mais elaborada que deixarei para outro post.

Espero que tenha gostado!

Curtiu o post? Então clica no banner abaixo e dá uma conferida no meu livro sobre programação web com Node.js!

Autenticação em Node.js com Passport – Parte 2

Este post é uma continuação do tutorial de como implantar um mecanismo de autenticação completo em Node.js usando o middleware Passport. No tutorial passado fizemos funcionar a autenticação através de uma tela de login e impedimos que usuários anônimos entrem na tela de chat.

Nesta segunda parte vamos criar a tela de cadastro de usuário (Sign Up) e a tela de recuperação de senha (Forget Password), além que aprenderemos a enviar emails em Node.js.

  1. Criando o cadastro de usuário
  2. Aprendendo a enviar emails
  3. Criando a recuperação de senha

Vamos lá!

#1 – Criando o cadastro de usuário

No tutorial anterior deixamos nosso banco preparado e a conexão compartilhada em uma variável global.db. Usaremos esta conexão global para fazer as operações de banco necessárias. Também usaremos o mesmo módulo bcrypt para criptografar as senhas no banco.

Para começar, vamos criar a nossa tela de cadastro de usuário que pedirá username, password e email, chamei ela de views/signup.ejs:

Note que este form faz um POST para uma rota /users/signup e que ele já espera uma message no model para exibir erro, caso dê algum problema. Faremos isso tudo funcionar depois.

Para que essa view possa ser exibida, primeiro vamos criar um novo arquivo de rotas em routes/users.js. Aqui colocaremos todas as rotas relacionadas a usuários, a começar pela rota que exibe a view que acabamos de criar via GET:

Note que já fiz o teste para passar ou não uma mensagem de falha para a tela no model, pra não dar erro na minha view. Agora para que essa rota passe a funcionar, temos de configurar nosso app.js, como abaixo:

Salve tudo e mande rodar sua aplicação para ver ela funcionando no navegador (use o link de “Não possui cadastro?” que deixamos prontos na tela de login):

Cadastro de Usuário
Cadastro de Usuário

Note que para acessar essa tela a rota é /users/signup. Isso porque definimos no app.js que rotas ‘/’ são tratadas pela index.js e rotas ‘/users’ são tratadas pela users.js, ou seja, há um roteamento inicial com ‘/users’ e depois o outro roteamento com ‘/signup’, virando ‘/users/signup’ a rota completa.

Agora, antes de sair programando a rota POST /users/signup que está em nosso HTML FORM, devemos criar a função JS que vai salvar um novo usuário no MongoDB. Para armazenar não apenas essa mas outras funções relacionadas a banco de dados (que não são de autenticação, pois estas deixamos no arquivo auth.js), vamos criar um arquivo db.js na raiz do nosso projeto. Dentro dele, vamos criar e expor uma função createUser, como abaixo:

Aqui eu pego a senha plain-text enviada pela view e gero o hash dela usando um salt de 10 rounds, que foi o que achei como sendo seguro atualmente, embora esta resposta dê um panorama mais completo de como calcular isso se seu sistema realmente precisar de uma segurança acima da média (bancos?). Ao final do processo, chamo uma função de callback que a createUser espera como último parâmetro.

Com esse módulo db.js pronto, programar essa rota de /users/signup será bem simples! Vá em routes/users.js e adicione uma rota POST para /signup, como abaixo (lembrando que o path /users já é tratado no app.js):

Aqui eu carrego o módulo ‘db’ que acabamos de criar e com ele chamo a função createUser, passando os dados enviados no corpo da requisição HTTP: username, password e email. Como último parâmetro, passo uma arrow function como callback, que apenas vai redirecionar para a tela de login em caso de sucesso e para a própria tela de signup em caso de fracasso, onde uma mensagem de erro será exibida.

Execute novamente sua aplicação e teste a criação de usuário. Se tudo deu certo, após a criação você poderá se autenticar na tela de login usando esse novo usuário.

Mas o que você acha de mandarmos um email de boas vindas para esse usuário que recém se cadastrou?

#2 – Aprendendo a enviar emails

Após o usuário se cadastrar, vamos enviar um email de boas vindas para ele. Além de ser algo interessante, fazer a lógica de envio de emails será útil na próxima etapa do tutorial, que é reset de senha por email.

Para fazer o envio de emails vamos usar um módulo chamado Nodemailer, que deve ser instalado via linha de comando usando o NPM:

Depois, vamos criar um módulo mail.js na raiz do nosso projeto, com o seguinte código:

Nosso módulo mail.js apenas expõe uma função que espera o destinatário da mensagem (to), o assunto (subject) e o texto (text). Por fim, a função sendMail faz o serviço propriamente dito.

Note que as configurações de SMTP para envio de email estão definidas em variáveis de ambiente, assim como fizemos na parte 1 deste tutorial para guardar a connection string do MongoDB.

Não esqueça que para que essas variáveis de ambiente funcionem, você deve adicionar o modelo delas no arquivo .env.example (é um arquivo oculto, você só vai conseguir ver ele com VS Code ou no terminal):

E com os valores finais no arquivo .env:

Aqui usei minha conta de email na Umbler para enviar os emails (você pode criar sua conta lá e ganhar créditos de graça para gastar com um email que custa centavos por mês). Como é uma aplicação de teste que vai enviar poucos emails, não vamos ter problemas. No entanto, caso queira usar o nodemailer para enviar muitos emails, você rapidamente será bloqueado em qualquer provedor de hospedagem. O certo é usar serviços de SMTP Gateway como Amazon SES, Mandrill e SendGrid.

Agora, para usarmos este módulo e finalmente fazer o envio de email de boas vindas funcionar, adicione apenas uma linha a mais em nossa rota POST em users.js:

Obviamente você pode personalizar essa mensagem livremente, ao invés do “email espartano” que deixei configurado. Soluções mais profissionais geralmente envolvem criar templates HTML que são lidos usando o módulo ‘fs’, algumas variáveis dentro do template são trocadas e depois a string resultante é enviada como HTML.

Rode novamente sua aplicação com ‘npm start’ e realize o cadastro de um novo usuário, mas informando um email válido, para que a mensagem chegue e você possa ver o resultado no seu webmail.

Email enviado via Node.js
Email enviado via Node.js

#3 – Criando a recuperação de senha

Agora a próxima parte é a de recuperação de senha. Lembra que deixamos um link pra isso lá na tela de login?

Vamos começar criando uma nova view, a views/forgot.ejs, com um formulário bem simples que pede a confirmação de seu email para envio de uma nova senha:

E para que essa tela seja acessível, vamos criar uma nova rota GET em routes/users.js:

Rodando sua aplicação e acessando no navegador, já deve ser possível navegar até esta página usando o link na tela de login:

Esqueceu a senha
Esqueceu a senha

Para fazer funcionar este formulário, vamos começar criando duas funções em nosso arquivo db.js: uma que busca um usuário pelo seu email e outra que muda a senha de um usuário:

A primeira função é bem simples, um findOne por email, que executa um callback após encontrar (ou não) o usuário. A segunda recebe uma senha, criptografa ela e sobrescreve o hash de senha do usuário cujo id foi passado por parâmetro. O module.exports no final do db.js também foi atualizado de acordo.

Note que não estou criando as devidas validações em nenhum formulário para os artigos não ficarem gigantescos. Nem de campos obrigatórios, nem validações de regras de negócio como não permitir usuários e emails duplicados. Tenha em mente que você deverá implementar essas questões se for usar esses códigos em produção.

Antes de sairmos fazendo a rota POST, vamos criar um arquivo utils.js na raiz do nosso projeto e colocar dentro dele uma função de geração de senha aleatória:

Esta função é bem simples e talvez você até queira usar alguma mais avançada. Aqui eu crio e retorno uma senha aleatória de 10 caracteres alfanuméricos (maiúsculas, minúsculas e números).

Agora que temos estas funções podemos criar a nossa rota POST que vai receber os dados do formulário de “esqueci minha senha”. Abra o arquivo routes/users.js e crie a nova rota:

Aqui começamos com o findUser que criamos anteriormente, que busca usuário por email. Caso não encontre, vamos jogar o usuário para a tela de login mesmo assim, embora você possa pensar em algo mais criativo para fazer.

Caso encontre, mandamos gerar uma nova senha usando a função que criei há pouco e uso o changePassword para mudar a senha do usuário que possui o email especificado (em um sistema de produção, para evitar problemas, além do email, peça alguma informação pessoal do usuário para confirmar esse processo de troca de senha). Por fim, um email é enviado com a senha que acabou de ser gerada, como na imagem abaixo.

Nova senha
Nova senha

Se você tentar se autenticar com a senha antiga, notará que ela não funciona mais, somente a nova.

É uma boa prática guardar o hash das últimas senhas do usuário e não deixar que ele use senhas antigas (mesmo senhas aleatórias podem conflitar ocasionalmente). Outra boa prática seria no primeiro login com a nova senha ele ser solicitado a cadastrar uma senha pessoal ao invés dessa aleatória. Enfim, sempre há margem para melhorar quando o assunto é segurança.

Pretendo em uma futura parte 3, abordar outras questões relacionadas a segurança, como autorização (visto que até o momento vimos apenas autenticação).

Até a próxima!

Curtiu o post? Então clica no banner abaixo e dá uma conferida no meu livro sobre programação web com Node.js!

Lançamento do meu livro de Node.js

Faz tempo desde meus primeiros estudos com Node.js, quase concomitantemente às minhas primeiras postagens sobre o assunto aqui no blog.

Assim como fiz em 2012, conforme ia iniciando meus estudos de Android, fui documentando tudo o que aprendia e testava sobre Node.js e todo o ecossistema de tecnologias ao redor dele.

Obviamente não comecei meus estudos partindo do zero, uma vez que já trabalho com desenvolvimento web há cerca de 10 anos. Todo o meu conhecimento de front-end (que se resume a JQuery e Bootstrap) e de banco de dados (que se resume a SQL Server e MongoDB), aliado às boas práticas de Engenharia de Software, Gestão de Projetos, Testes de Software, etc formaram o profissional Node.js que sou hoje.

Puramente com Node eu tenho experiência de quase um ano na data que escrevo este post e uma meia dúzia de projetos entregues e funcionando.

Pois então que há alguns meses decidi escrever um novo livro. O primeiro de 2017, justamente sobre todo esse conhecimento de programação web que possuo e que já me renderam o cargo de docente de disciplinas como Programação para Internet e Serviço para Web em faculdades do RS durante alguns anos.

Esse livro chama-se Programação Web com Node.js, e está à venda desde essa semana na Amazon.

É um livro completo. Mesmo. São 355 páginas, o maior livro que já escrevi na minha curta carreira de escritor. Uma monstruosidade que pode assustar pelo tamanho, mas que possui uma didática clara e objetiva, como todos livros de minha autoria (quem já leu os demais sabe do que estou falando), e que pega o leitor pela mão e ensina desde os conceitos mais básicos até tudo que é necessário para ter uma aplicação rodando.

Do front-end ao back-end, passando por banco de dados e com muito Node.js, Programação Web com Node.js é para quem está começando a trabalhar com web e está completamente confuso com a quantidade de frameworks, bibliotecas e tecnologias disponíveis. Nele, ensino a usar tudo o que deu certo em meus projetos nos últimos anos, não necessariamente as stacks mais badaladas da atualidade, mas o que é bom, confiável e que possui grande mercado.

Neste livro você vai aprender:

  • o básico de algoritmos e programação com JavaScript;
  • tecnologias básicas da web: HTML+CSS+JS;
  • construção de back-end de aplicações e serviços com Node.js;
  • como usar o web framework ExpressJS e diversos outros módulos famosos do Node;
  • como sistemas web funcionam e, principalmente, o protocolo HTTP;
  • como criar interfaces web atraentes com Bootstrap;
  • como criar scripts poderosos e interações real-time com Ajax em JQuery;
  • como usar o banco de dados MongoDB;
  • dezenas de boas práticas de programação com Node.js;

Novamente, devido às atualizações constantes e ao tamanho do livro, optei apenas por ter versão digital, que você pode ler no Kindle, no PC usando o ler.amazon.com e no smartphone/tablet usando o app Kindle Cloud Reader. Um livro desse tamanho impresso não custaria menos de R$100 e rapidamente ficaria desatualizado, coisa que eu detesto.

Além disso, caso assine o Kindle Unlimited (primeiro mês grátis e depois R$20/mês), você ler o meu livro e milhares de outros títulos gratuitamente.

Se ainda não é cliente da Amazon, esta é uma excelente oportunidade de começar com o pé direito. Modéstia à parte. 😉