Add abstract
Want to add your dissertation abstract to this database? It only takes a minute!
Search abstract
Search for abstracts by subject, author or institution
Want to add your dissertation abstract to this database? It only takes a minute!
Search for abstracts by subject, author or institution
Quality-efficiency trade-offs in machine learning applied to text processing
by Zeinab Liaghat
Institution: | Universitat Pompeu Fabra |
---|---|
Department: | |
Degree: | |
Year: | 2017 |
Keywords: | Trade-off analysis; Text processing; Machine learning; Named entity recognition; Sentiment analysis; Document classification; Anlisis de compensacin; Procesamiento de texto; Aprendizaje automtico; 62 |
Posted: | 2/1/2018 12:00:00 AM |
Record ID: | 2159551 |
Full text PDF: | http://hdl.handle.net/10803/402575 |
Hoy en da, la cantidad de documentos digitales disponibles est creciendorpidamente, ex- pandindose a un ritmo considerable y procediendo de una variedadde fuentes. Estas fuentes de informacin no estructurada y semi estructurada incluyenla World Wide Web, artculos de noticias, bases de datos biolgicos, correoselectrnicos, bibliotecas digitales, repositorios electrnicos gubernamentales, salas dechat, foros en lnea, blogs y medios sociales como Fa- cebook, Instagram, LinkedIn,Pinterest, Twitter, YouTube, adems de muchos otros.Extraer informacin de estos recursos y encontrar informacin til de tales coleccionesse ha convertido en un desafo que hace que la organizacin de esa enorme cantidadde datos sea una necesidad. La minera de datos, el aprendizaje automtico y elprocesamiento del lenguaje natural son tcnicas poderosas que pueden utilizarseconjuntamente para hacer frente a este gran desafo. Dependiendo de la tarea o elproblema en cuestin, hay muchos enfoques dife- rentes que se pueden utilizar. Losmtodos que se estn implementando se estn optimizando continuamente, pero estosmtodos de aprendizaje automtico supervisados han sido probados y comparados condatos de entrenamiento grandes. La pregunta es Qu pasa con la calidad de losmtodos si incrementamos los datos de 100 MB a 1GB? Ms an, las mejoras en lacali- dad valen la pena cuando la tasa de procesamiento de los datos disminuye?Podemos cambiar calidad por eficiencia, recuperando la perdida de calidad cuandoprocesamos ms datos?Esta tesis es una primera aproximacin para resolver estas preguntas de forma generalpara tareas de procesamiento de texto, ya que no ha habido investigacin suficientepara comparar estos mtodos considerando el balance entre el tamao de los datos, lacalidad de los resultados y el tiempo de procesamiento. Por lo tanto, proponemos unmarco para analizar este balance y lo aplicamos a tres importantes problemas deprocesamiento de texto: Reconocimiento de En- tidades Nombradas, Anlisis deSentimientos y Clasificacin de Documentos. Estos problemas fueron seleccionadostambin porque tienen distintos niveles de granularidad: palabras, opinio- nes ydocumentos completos. Para cada problema seleccionamos distintos algoritmos deapren- dizaje automtico y evaluamos el balance entre estas variables para los distintosalgoritmos en grandes conjuntos de datos pblicos (noticias, opiniones, patentes).Usamos subconjuntos de distinto tamao entre 50 MB y varios GB para explorar estebalance. Para concluir, como ha- bamos supuesto, no porque un algoritmo es eficienteen pocos datos ser eficiente en grandes cantidades de datos. Para los dos ltimosproblemas consideramos algoritmos similares y tam- bin dos conjuntos distintos dedatos y tcnicas de evaluacin, para estudiar el impacto de estos dos parmetros enlos resultados. Mostramos que los resultados no cambian significativamente con estoscambios.Advisors/Committee Members: [emailprotected] (authoremail), true (authoremailshow), Baeza-Yates, Ricardo (director), true (authorsendemail).
Want to add your dissertation abstract to this database? It only takes a minute!
Search for abstracts by subject, author or institution
![]() |
Electric Cooperative Managers' Strategies to Enhan...
|
![]() |
The Filipina-South Floridian International Interne...
Agency, Culture, and Paradox
|
![]() |
Bullied!
Coping with Workplace Bullying
|
![]() |
Commodification of Sexual Labor
Contribution of Internet Communities to Prostituti...
|
![]() |
The Census of Warm Debris Disks in the Solar Neigh...
|
![]() |
Performance, Managerial Skill, and Factor Exposure...
|
![]() |
The Deritualization of Death
Toward a Practical Theology of Caregiving for the ...
|
![]() |
Emotional Intelligence and Leadership Styles
Exploring the Relationship between Emotional Intel...
|
![]() |
Solution or Stalemate?
Peace Process in Turkey, 2009-2013
|
![]() |
Risk Factors and Business Models
Understanding the Five Forces of Entrepreneurial R...
|