Extração de dados web como suporte na elaboração de indicadores do turismo de Minas Gerais: uma iniciativa em Big Data
Rafael Almeida de Oliveira. Dissertação (Mestrado) – Universidade Federal de Minas Gerais, Escola de Ciência da Informação: Belo Horizonte, 2017.
A pesquisa teve como objetivo estudar o fenômeno Big Data e a possibilidade de utilização de ferramentas de extração de dados em ambiente web para auxiliar na elaboração de indicadores referente ao turismo em Minas Gerais. Primeiramente, realizou-se uma fundamentação teórica sobre conceitos fundamentais da ciência da informação para a contextualização do tema, além de pontuar o papel das ferramentas de extração de informações via web. Após essa etapa, foi realizado um estudo de caso com uma ferramenta de extração de dados denominada Import.io para coletar dados do site de viagens TripAdvisor, buscando as principais informações dos atrativos turísticos de Minas Gerais transformando-as em um banco de dados estruturado. Assim, foi possível analisar informações como a oferta de atrativos por categorias no estado e por município, o número de avaliações, o perfil dos visitantes, o nível de satisfação e o período de maior visitação de cada um dos atrativos. Para comprovar a utilidade das informações capturadas foi realizado um acompanhamento dos dados referentes ao Conjunto Arquitetônico da Pampulha com o objetivo de avaliar um possível impacto do seu reconhecimento como patrimônio mundial da humanidade na percepção dos visitantes. Os resultados mostraram que é possível utilizar a extração de dados disponibilizados em espaço web para a criação de indicadores de monitoramento do turismo que auxiliem o poder público na tomada de decisão. Constatou-se também a necessidade de uma maior discussão sobre a forma de disponibilização dos dados por parte das plataformas online para órgãos governamentais, visando dar utilidade à informação que possam beneficiar o público final. A metodologia apresentada poderá auxiliar as esferas públicas em extrair informações estratégicas que estão disponibilizadas na web, com baixo custo, otimizando ações e garantindo uma melhoria no uso de recursos.