image

Mineração de Textos (FAMUR)

Publicado por Otavio Costa Acosta em Outras


A mineração de textos é uma área de pesquisa em constante crescimento, principalmente devido ao aumento de informações que podem ser obtidas por meio de Internet. De livros à página pessoais, o conteúdo em forma de texto presente na web precisa ser classificado e catalogado, geralmente através de processos autônomos de análise e validação de dados. A forma como são realizados esses processos varia de acordo com a necessidade, mas geralmente está baseado em análises estatísticas e verificação de domínio, tendo análises semânticas e sintáticas como apoio.

A definição de mineração de texto varia de acordo com o pesquisador que a propõe, mas é de consenso geral que a área está relacionada à mineração de dados, tendo como diferencial a possibilidade de análise de dados semiestruturados ou não estruturados (Feldman e Sanger, 2006; Tan, 1999). De acordo com Feldman e Sanger (2006), mineração de textos (MT) busca extrair informações consideradas úteis através da identificação e avaliação de padrões de dados não estruturados ou semiestruturados. Já Tan (1999) expande essa definição ao considerar que mineração de textos também deve ser capaz de extrair padrões não triviais dos dados apresentados e pode ser visto como uma extensão de área de pesquisa de mineração de dados, e semelhantes à área de pesquisa de descoberta de conhecimento. Gupta e Lehal (2009) define MT como sendo a descoberta de informações inéditas através de processamento de escrita. Para Bolasco e colegas (2005), mineração de textos é uma área de pesquisa que busca obter informações relevantes de textos que utilizam linguagem natural através de sua análise e estruturação (esta definição não leva em consideração métodos de análise estatísticos que não necessitam de linguagem natural para serem implementados).

Outras nomenclaturas para mineração de texto incluem "Analise Inteligente de textos", "Mineração de dados em textos" e "Descoberta de conhecimento" (Gupta e Lehal, 2009). É comum entre os autores de pesquisa nessa área considerar mineração de texto como uma área de pesquisa interdisciplinar, que utiliza pesquisas das áreas de mineração de dados, aprendizagem de máquinas, estatísticas e processamento de linguagem natural (Tan, 1999; Gao et. al., 2005, Bolasco et. al., 2005).

Muitas das teorias e algoritmos de mineração de textos provêm da área de mineração de dados. Por isso, há uma grande similaridade nos processos realizados entre os dois campos de pesquisa. Ambos realizam pré-processamentos para organizar os dados, buscam encontrar padrões nesses dados e apresentam formas semelhantes de visualização das informações encontradas. Além disso, algoritmos utilizados em MT geralmente possuem heurísticas desenvolvidas inicialmente para mineração de dados quando se trata de encontrar conhecimento na sua base de dados. Tan (1999) considera que mineração de textos é um processo mais complexo que mineração de dados por envolver dados não estruturados e ambíguos.

O processo de Mineração de Textos primeiro deve transformar um documento (textual) em uma forma estruturada de dados. Essa transformação utiliza alguma característica ou marcação do documento para estruturá-lo de forma que o processo de extração de conhecimento possa ser realizado. Um grafo conceitual ou uma representação do tipo base de dados relacional é geralmente utilizado (Tan, 1999). Após esse processo de transformação de dados, um segundo algoritmo encontra padrões nos dados já estruturados.

No âmbito da área educacional, a mineração de textos vem se destacando principalmente nos últimos anos. Com o crescimento dos cursos a distancia e dos Cursos Online Aberto e Massivo (MOOC) surgiu a necessidade de processar e analisar uma quantidade sem precedentes de textos e trabalhos. Muitos autores já utilizam mineração de textos para auxiliar essa tarefa, seja na forma de análise de postagem em fóruns (Azevedo et. al., 2014), síntese de textos para auxiliar a escrita colaborativa (Macedo et. al., 2009) ou mesmo incorporada a agentes pedagógicos (Pinho et. al., 2013).


Submetido às 16:15:00 de 04/09/2018
Modificado às 16:23:51 de 04/09/2018


Para participar, é necessária aprovação do autor do Tema.

Clique aqui para participar!

Tema sem tempo limite!