Vídeo-aula: Como extrair e formatar texto usando Expressões Regulares

Este vídeo demonstra como usar Expressões Regulares para extrair informações de um texto e depois reorganizar no formato que você quiser. São três passos distintos:

  1. Casar o trecho de texto (match)
  2. Marcar as informações desejadas (group)
  3. Formatar o texto (replace)

Sempre faça os três passos sequencialmente, ou seja, não se preocupe com a formatação se você ainda não terminou a expressão que casa o texto. Tampouco saia colocando grupos desnecessários antes de concluir o primeiro passo. Assim, focando em uma tarefa por vez, sua vida com as expressões fica mais tranquila.

Detalhe nerd: Eu precisei dos dados da tabelona do vídeo para fazer o código da função zzunescape, que usa vários comandos s/// do sed para decodificar textos. Com a regex do vídeo pude gerar os comandos de uma só vez, usando o seguinte texto como substituto: s/&#0*$4;/$2/g;\ts/&#x0*$3;/$2/g;\ts/&$1;/$2/g;

Este foi mais um vídeo da série SEM: sem ensaio, sem cortes, sem edição. Ah, e no final do vídeo a galera do twitter dá um alô :)

Expressões Regulares usadas no vídeo:

  • ^\w+\t.\tU\+0*\w+ \(\d+\)\t.*$
  • ^(\w+)\t(.)\tU\+0*(\w+) \((\d+)\)\t.*$

Tabelona da Wikipédia com os dados:

Ferramentas online usadas no vídeo:

Saiba mais sobre Expressões Regulares:

— EOF —

Gostou desse texto? Aqui tem mais.