Abstracts Category : Other

Add abstract

Want to add your dissertation abstract to this database? It only takes a minute!

Search abstract

Search for abstracts by subject, author or institution

Share this abstract

Quality-efficiency trade-offs in machine learning applied to text processing

by Zeinab Liaghat

Institution: Universitat Pompeu Fabra
Department:
Degree:
Year: 2017
Keywords: Trade-off analysis; Text processing; Machine learning; Named entity recognition; Sentiment analysis; Document classification; Anlisis de compensacin; Procesamiento de texto; Aprendizaje automtico; 62
Posted: 2/1/2018 12:00:00 AM
Record ID: 2159551
Full text PDF: http://hdl.handle.net/10803/402575


Abstract

Hoy en da, la cantidad de documentos digitales disponibles est creciendorpidamente, ex- pandindose a un ritmo considerable y procediendo de una variedadde fuentes. Estas fuentes de informacin no estructurada y semi estructurada incluyenla World Wide Web, artculos de noticias, bases de datos biolgicos, correoselectrnicos, bibliotecas digitales, repositorios electrnicos gubernamentales, salas dechat, foros en lnea, blogs y medios sociales como Fa- cebook, Instagram, LinkedIn,Pinterest, Twitter, YouTube, adems de muchos otros.Extraer informacin de estos recursos y encontrar informacin til de tales coleccionesse ha convertido en un desafo que hace que la organizacin de esa enorme cantidadde datos sea una necesidad. La minera de datos, el aprendizaje automtico y elprocesamiento del lenguaje natural son tcnicas poderosas que pueden utilizarseconjuntamente para hacer frente a este gran desafo. Dependiendo de la tarea o elproblema en cuestin, hay muchos enfoques dife- rentes que se pueden utilizar. Losmtodos que se estn implementando se estn optimizando continuamente, pero estosmtodos de aprendizaje automtico supervisados han sido probados y comparados condatos de entrenamiento grandes. La pregunta es Qu pasa con la calidad de losmtodos si incrementamos los datos de 100 MB a 1GB? Ms an, las mejoras en lacali- dad valen la pena cuando la tasa de procesamiento de los datos disminuye?Podemos cambiar calidad por eficiencia, recuperando la perdida de calidad cuandoprocesamos ms datos?Esta tesis es una primera aproximacin para resolver estas preguntas de forma generalpara tareas de procesamiento de texto, ya que no ha habido investigacin suficientepara comparar estos mtodos considerando el balance entre el tamao de los datos, lacalidad de los resultados y el tiempo de procesamiento. Por lo tanto, proponemos unmarco para analizar este balance y lo aplicamos a tres importantes problemas deprocesamiento de texto: Reconocimiento de En- tidades Nombradas, Anlisis deSentimientos y Clasificacin de Documentos. Estos problemas fueron seleccionadostambin porque tienen distintos niveles de granularidad: palabras, opinio- nes ydocumentos completos. Para cada problema seleccionamos distintos algoritmos deapren- dizaje automtico y evaluamos el balance entre estas variables para los distintosalgoritmos en grandes conjuntos de datos pblicos (noticias, opiniones, patentes).Usamos subconjuntos de distinto tamao entre 50 MB y varios GB para explorar estebalance. Para concluir, como ha- bamos supuesto, no porque un algoritmo es eficienteen pocos datos ser eficiente en grandes cantidades de datos. Para los dos ltimosproblemas consideramos algoritmos similares y tam- bin dos conjuntos distintos dedatos y tcnicas de evaluacin, para estudiar el impacto de estos dos parmetros enlos resultados. Mostramos que los resultados no cambian significativamente con estoscambios.Advisors/Committee Members: [emailprotected] (authoremail), true (authoremailshow), Baeza-Yates, Ricardo (director), true (authorsendemail).

Add abstract

Want to add your dissertation abstract to this database? It only takes a minute!

Search abstract

Search for abstracts by subject, author or institution

Share this abstract

Featured Books

Book cover thumbnail image
Electric Cooperative Managers' Strategies to Enhan...
by White, Michael Edward
   
Book cover thumbnail image
The Filipina-South Floridian International Interne... Agency, Culture, and Paradox
by Haley, Pamela S.
   
Book cover thumbnail image
Bullied! Coping with Workplace Bullying
by Gattis, Vanessa M.
   
Book cover thumbnail image
Commodification of Sexual Labor Contribution of Internet Communities to Prostituti...
by Young, Jeffrey R.
   
Book cover thumbnail image
The Census of Warm Debris Disks in the Solar Neigh...
by Patel, Rahul I.
   
Book cover thumbnail image
Performance, Managerial Skill, and Factor Exposure...
by Avci, S. Burcu
   
Book cover thumbnail image
The Deritualization of Death Toward a Practical Theology of Caregiving for the ...
by Gibson, Charles Lynn
   
Book cover thumbnail image
Emotional Intelligence and Leadership Styles Exploring the Relationship between Emotional Intel...
by Olagundoye, Eniola O.
   
Book cover thumbnail image
Solution or Stalemate? Peace Process in Turkey, 2009-2013
by Yurtbay, Baturay
   
Book cover thumbnail image
Risk Factors and Business Models Understanding the Five Forces of Entrepreneurial R...
by Miles, D. Anthony