2024-03-29T16:00:19Zhttp://oai-repositori.upf.edu/oai/requestoai:repositori.upf.edu:10230/221822018-12-12T16:08:19Zcom_10230_20650com_10230_16441col_10230_22179
Interactive system design: an approach to digital arts through kinect sensor programming
Ramírez Gómez, Argenis
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Jesús Ibáñez Martínez
Emerging interactive experiences have become really demanded by users that need to be part of new applications where experts from different fields work together in order to create a creative system based on Human-Technology Interaction and Digital Arts. Exploring Interaction and creative Visualizations, the need to change the 'programme d'experience into a more improvising one was the system design starting point. From here, the aim of this project was to design and develop an interactive system, which introducing audiovisual processing, interaction and creative graphics has turned into a new user based system. By tracking users position in a certain space and translating this data into flocking systems nof particles based on users themselves, this interactive multi-user system wanted to use different technical disciplines in order to develop something new, efficient and with a low cost. The exploration of the application without knowing beforehand what could be done with that, has been the success of this new system, where users could interact with each other and feel that they are absolutely in control of the system by being mapped on it. As a result, not only a new interactive experience has been developed; the system has contributed to introduce new ways to integrate technology in design and fields such as Technologies for the Stage or Digital Arts.
La demanda de nuevas experiencias interactivas ha crecido considerablemente por parte de usuarios que necesitan ser parte de nuevas aplicaciones donde expertos de diferentes disciplinas trabajan juntos para crear sistemas creativos basados en Interacción Persona- Maquina y Artes Digitales. Explorando la interacción y la visualización creativa, la necesidad de convertir las experiencias 'programadas' en unas más improvisadas ha sido el puntos de partida del diseño de este sistema. A partir de aquí, el objetivo de este proyecto ha sido la creación de un sistema interactivo que introduciendo procesamiento audiovisual, interacción y el uso de gráficos creativos se ha convertido en un sistema basado en los usuarios. Mediante el seguimiento de la posición de los usuarios en un determinado espacio, y trasladando estos datos a la creación de un sistema de partículas basado en los mismos usuarios, este sistema interactivo multiusuario se ha basado en el uso de diferentes disciplinas técnicas para desarrollar algo nuevo, eficiente y a un bajo coste. La exploración de la aplicación sin saber que esperar de ella de antemano ha sido el gran éxito del sistema, en el cual los usuarios han podido interactuar entre ellos y sentirse con el control del sistema siendo reflejados en el. Finalmente, no sólo se ha creado una nueva aplicación interactiva, el sistema ha contribuido en la introducción de nuevas formas de integrar tecnología en diseño y áreas como las Tecnologías de Escena o las Artes Digitales.
2014-03-21
2014-03-21
2013
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22182
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/221862019-09-26T08:16:10Zcom_10230_20650com_10230_16441col_10230_22179
Experiència interactiva de cos sencer per ajudar a nens amb Trastorn de l’Espectre Autista a millorar habilitats socials: SPARK
Albó, Laia
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Narcís Parés
En aquest treball s’ha dissenyat i desenvolupat el software d’un sistema interactiu de cos sencer basat en projecció a terra que proposa una experiència lúdica a nens amb Trastorn de l’Espectre Autista (TEA) de nivell funcional mig. L’objectiu és promoure actituds d’interacció, compartició i col·laboració d’un nen amb TEA amb un nen de desenvolupament típic. Així s’espera que el nen amb TEA entengui els beneficis de la interacció social i estigui preparat a iniciar habilitats socials molt elementals com per exemple: establir contacte visual, adreçar-se a un company, mostrar la descoberta de coses, compartir mecanismes d’interacció, etc. S’ha fet recerca sobre el TEA per tal d’aconseguir un disseny de la interacció basat en els seus requeriments. El treball forma part d’un projecte més gran anomenat SPARK/ndel grup CMTech del DTIC. Aquest últim serà el que, en un futur, estudiarà i testejarà el sistema implementat per saber si s’assoleix l’objectiu d’interacció proposat. El/nprojecte ha estat desenvolupat mitjançant l’eina de codi obert anomenada OpenFrameworks.
In this work it has designed and developed software of a full-body interactive game with ground projection that offers a recreational experience to children with Autism Spectrum Disorder (ASD). The aim is to promote attitudes of interaction, sharing and collaboration of a child with ASD with a child of typical development. It is expected that children with ASD understand the benefits of social interaction and is ready to start very basic social skills such as: visual contact, go to a partner, showing the discovery of things, sharing interaction mechanisms, etc. Research has been done on the TEA to achieve an interaction design based on your requirements. The work is part of a larger project called SPARK from the CMTech group in the DTIC. In the future, the latter will study and test the implemented system to see if it achieves the objective of the proposed interaction. The project has been developed by open source tool called OpenFrameworks.
2014-03-26
2014-03-26
2013
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22186
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/221902018-12-12T14:32:05Zcom_10230_20650com_10230_16441col_10230_22179
Anàlisi i avaluació d'algoritmes de flux òptic basats en el mètode de Horn & Schunck incorporant informació de profunditat
Anglès Farré, Mireia
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Felipe Calderero
El flux òptic és el moviment aparent dels objectes d'una imatge entre dos frames consecutius. El càlcul del flux òptic esdevé de gran utilitat en multitud d'àmbits com estimació del moviment i compressió de vídeo, així com en detecció i seguiment d'objectes i reconstrucció tridimensional. D'aquesta manera, resulta un camp d'estudi molt ampli a tenir en compte.
L'objectiu d'aquest treball és estudiar i analitzar els algoritmes de càlcul de flux òptic basats en el clàssic algoritme de Horn & Schunck i estimar el flux òptic d'una manera més acurada utilitzant la informació de profunditat relativa de la imatge. Així, gràcies a la informació de profunditat relativa dels objectes implementarem 3 noves millores i estudiarem com canvia l'estimació del moviment aparent i quins són els resultats finals. Per tal d'avaluar els resultats, es realitzarà una avaluació amb mesures de qualitat objectives comparant l'error absolut i angular per cada una de les implementacions dutes a terme.
2014-03-27
2014-03-27
2013
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22190
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/221912018-12-12T16:03:46Zcom_10230_20650com_10230_16441col_10230_22179
Evaluación y mejora de la invarianza al timbre de descriptores tonales para el uso efectivo en aplicaciones musicales
Lizarraga Seijas, Xavier
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Emilia Gómez Gutiérrez
La mayor parte de las aplicaciones musicales precisan de mecanismos inteligentes que nos permitan interactuar con el contenido musical de forma eficiente y ordenada. Una gran parte de los procedimientos automáticos utilizados en aplicaciones como la identificación o recomendación de música o el análisis de estructura o acordes se basan en la extracción automática de descriptores de croma, representativos del contenido tonal, mediante el análisis de señales musicales. Sin embargo, dichos métodos automáticos muestran ciertas deficiencias en presencia de ruido y cambios de timbre que acaban introduciendo errores en el sistema. Principalmente, este trabajo trata sobre tonalidad y timbre. Concretamente, se centra en el descriptor de croma Harmonic Pitch Class Profile HPCP (Emilia Gómez, 2007, UPF). Nuestro objetivo principal es estimar su grado de variación al timbre y su efectividad respecto a otros métodos, además de evaluar varios procesos que proponemos para mejorar su rendimiento. La estimación de la variación al timbre y la efectividad, se basa en el análisis de los cromagramas de 298 combinaciones de notas, interpretadas con diferentes instrumentos. Los métodos propuestos para mejorar el rendimiento son: la estimación de tono mediante las frecuencias instantáneas y la ecualización tímbrica basada en el filtrado cepstral. Además, presentamos diferentes experimentos con ambos métodos, en MATLAB y C++, que muestran la dependencia en los parámetros que controlan aspectos espectrales y su influencia en la extracción del croma. Los resultados obtenidos de la evaluación del cromagrama nos permiten cuantificar y visualizar propiedades relacionadas con el timbre y la tonalidad. De esta forma conseguimos clasificar los métodos de extracción de cromagramas, según su efectividad. Los experimentos con los métodos de mejora que proponemos, concluyen en que la estimación del tono a partir de la frecuencia instantánea es un método eficaz, pero poco eficiente para el análisis de señales de audio polifónicas. Además muestra una gran dependencia de sus parámetros y un alto coste computacional. Sin embargo, los experimentos realizados sobre el filtrado de coeficientes cepstrum, muestran la posibilidad de modificar las modulaciones tímbricas, con un comportamiento similar al de una función de blanqueado espectral. Principalmente, se han analizado dos técnicas: la sustitución de coeficientes cepstrum por ceros (zeroing) y el filtrado de los coeficientes mas bajos mediante un filtro pasa altos. Con los resultados obtenidos se han desarrollado dos plugin Vamp multi-plataforma: la tercera versión del HPCP y el espectrograma basado en la frecuencia instantánea, IF Spectrogram. Obviamente, estas dos aplicaciones finales quedarán a disposición de la comunidad para el análisis de señales de audio.
Most music applications require intelligent mechanisms that allow us to interact efficiently and orderly with the musical content. A large part of the automatic procedures used in applications such as identification or music recommendation or analysis of structure or chords are based on the automatic extraction chroma features, representing tonal content, through the analysis of musical signals. However, these automated methods show some deficiencies in noise and timbre changes that introduce errors into the system. Mainly, this work is about tonality and timbre. Specifically, it focuses on the chroma descriptor HPCP Harmonic Pitch Class Profile (Emilia Gómez, 2007, UPF). Our main objective is to estimate the degree of timbre invariance and its effectiveness over other methods, in addition to evaluating various processes we propose to improve its performance. The appraisal of the timbre invariance and effectiveness, are based on the chroma features analysis of 298 combinations of notes, played with different instruments. The proposed methods for improving performance are the pitch estimation based on instantaneous frequencies and timbre equalization based on cepstral filtering. In addition, we present several experiments with both methods in MATLAB and C++, which show the dependence on the parameters that control spectral aspects and their influence on chroma extraction. The results of the evaluation of croma approaches allow us to quantify and display properties related to the timbre and tonality. In this way we classify chroma extraction methods, depending on its effectiveness. Experiments with improved methods that we propose, conclude that the pitch estimation with the instantaneous frequency is effective, but not very efficient for the analysis of polyphonic audio signals. It also/nshows a considerable dependence of its parameters and a high computational cost. However, experiments with cepstrum filtering, show the possibility of modifying the timbre modulations, with a behavior similar to a spectral whitening. Mainly, two techniques have been analyzed with cepstrum: replacing coefficients by zeros and filtering using Gaussian function. With the obtained results we have developed two multi-platform plugin Vamp: the third version of HPCP and spectrogram based on the instantaneous frequency, IF Spectrogram. Obviously, these two applications will be available to the community for the analysis of audio signals.
2014-03-28
2014-03-28
2013
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22191
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/221922018-12-12T15:59:24Zcom_10230_20650com_10230_16441col_10230_22179
Manifold learning for cardiac image analysis: application to temporal enhancement and 3D heart reconstruction from freehand ultrasound
Fonollà Navarro, Roger
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Gemma Piella Fenoy
Manifold learning is increasingly being used to recover the underlying structure of medical image data. In this work, manifold learning algorithms are applied to extract the non-linear relationship between the frames of one cycle of a beating heart. The use of these techniques allows the characterization of the images according to their cardiac phase and their position which can be useful for computer-aided detection, diagnosis and therapy. Two ways of using this non-linear embedded information from 2D echocardiography images are presented. On the one hand, to increase the temporal resolution of the sequence and therefore to allow for a better analysis. On the other hand, to provide for a 3D visualization of the heart
Les tècniques de manifold learning han suposat una nova forma de descobrir informació i estructures de dades dins l’àmbit de la imatge mèdica. Aquest treball presenta una nova forma d’usar les tècniques de manifold , extraient informació no – lineal entre frames d’un cicle cardíac. L’ús d’aquestes tècniques ha permès la caracterització de les imatges d’acord amb la fase, així com la seva posició dins del cicle cardíac , útil per a la ràpida detecció , diagnòstic i teràpia de possible malalties del cor. Dos maneres d’usar l’ informació no lineal de les ecocardiografies 2D és presentada. Per una banda per incrementar la resolució temporal d’una seqüència cardíaca. Per l’altre banda per oferir una visualització tridimensional del cor.
2014-03-28
2014-03-28
2013
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22192
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228832018-12-12T15:58:05Zcom_10230_20650com_10230_16441col_10230_22179
Pla de negoci de Comics AR
Ocaña Amorós, Cristina
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Jordi Bosch Garcia
Actualment la realitat augmentada està tenint un fort impacte en diversos àmbits: arquitectura, educació, televisió, publicitat, turisme, oci..., però no és nova, ja que es coneix des de fa temps en diversos camps: social, mèdic, etc. L’objectiu d’aquest Treball Final de Grau és desenvolupar un pla de negoci amb tots els seus components, per tal de poder observar la viabilitat d’una aplicació de realitat augmentada. En aquest cas, el camp a la que aquesta s’adreça és el de l’oci i/o lectura, concretament està relacionada amb el món dels còmics, l’aplicació s’anomena Comics AR. Inicialment, es començarà a desenvolupar per l’editorial Planeta DeAgostini, pels còmics de la col·lecció de One Piece. Aquest Treball Final de Grau, s’ha estructurat tenint en compte l’índex i tots els seus subapartats tal i com es detallen. Així mateix, també s’ha desenvolupat un prototip d’aquesta aplicació amb les eines Unity 3D i Vuforia, per tal de veure el resultat final de la part més pràctica d’aquest treball.
Nowadays the augmented reality is having a strong impact in various ambits: architecture, education, television, commercial advertisements, tourism, entertainment, etc, but it is not new, owing to it is used for a long time in several fields: social, medical, etc. The aim of this work is to develop a business plan with all of its components to observe the viability of an augmented reality application. In this case, the field is entertainment and/or reading, specifically it is related to the world of comics, the application is called Comics AR. At the beginning, it will start to develop by Planeta DeAgostini, with the One Piece comics. This work has been structured into index and its specific subsections. Likewise, it has also developed an application prototype with Unity 3D and Vuforia, in order to see the final result of the practical part of this work.
2014-12-04
2014-12-04
2014-12-04
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22883
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228842018-12-12T15:56:18Zcom_10230_20650com_10230_16441col_10230_22179
Starting, contributing and empowering community networks in cities: experiences in Barcelona
Vílchez Blanco, Pedro
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Jaume Barceló Vicense; Roger Baig Viñas
Aquest projecte estudia el creixement d’una comunitat en xarxa a Barcelona. El treball ha sigut desenvolupat en dos escenaris. En el primer, una comunitat en xarxa ha crescut a Sant Andreu, un barri on abans no n’hi havia. En el segon escenari, una comunitat en xarxa s’ha fet més robusta a Poblenou. En aquest segon escenari s’utilitza un túnel de tràfic a través de la xarxa acadèmica entre dues universitats que complementa a la xarxa troncal sense fils.
The present project studies the growth of a community network in Barcelona. The work has developed in two scenarios. In the first one, a community network has been grown in Sant Andreu, a neighborhood where no community network was available. In the second scenario, an existing community network has been strengthened in Poblenou. This second scenario contemplates the tunneling of traffic using academic networks between two universities to complement community wireless backbones.
2014-12-04
2014-12-04
2014-12-04
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22884
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228852018-12-12T15:55:19Zcom_10230_20650com_10230_16441col_10230_22179
Síntesis de voz cantada y canto coral: criterios musicales y estadísticos
Iserte Agut, Jorge
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Jordi Bonada; Martí Umbert
Las nuevas tecnologías cada vez son más utilizadas como un recurso didáctico en el ámbito musical. En el caso del canto coral, a día de hoy, no hay muchas herramientas de ayuda para el cantante o para la agrupación que necesita representar una obra musical sin la posibilidad de disponer de intérpretes para su estudio. Este trabajo trata de la síntesis de voz coral generada con el software Vocaloid, con el objetivo de crear una herramienta de apoyo en el estudio del intérprete de una obra musical. En la primera parte se describe el procesamiento de partituras y creación del repertorio musical. La parte principal del proyecto se centra en la creación de las partituras de Vocaloid individuales para cada cantante del coro. Se han usado criterios musicales y estadísticos para obtener una simulación del comportamiento del coro. El último paso es mezclar las interpretaciones de las distintas voces a partir de unos parámetros introducidos por el usuario.
Music is experiencing the evolve of new technologies in many related fields, the area of the choirs has been left in the background, though. Hence, a lot of artists could have taken advantage of virtual choirs if they had had the technology to do so. This work deals with the synthesis of voice generated by the tool Vocaloid, in order to provide artists full support in the studio. First of all, both the musical score parsing and the database creation processes are explained. Then, with the basics described, the document explains the process of how the music sheets are generated for every single singer. The implementation not only takes into account musical criteria, but also statistics which bring to the user a realistic simulation of real singers. Finally, as a result, configuration parameters submitted by the user and all the voices generated are put together.
2014-12-04
2014-12-04
2014-12-04
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22885
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228862018-12-12T15:53:53Zcom_10230_20650com_10230_16441col_10230_22179
Definition of a bottom-up fibre deployment model in competitive markets
Fernández Moreno, Iván
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Albert Domingo Vilar; Miquel Oliver Riera
Currently the fixed broadband offer to the residential market in urban areas is wide and diverse. Therefore, every client may contract this fixed broadband service in an individual (disaggregated) way, regardless of whether the service is shared with other users within the households (family) and businesses (employees). Traditional operators are in charge of network planning, roll out and commercialization including the definition of the final retail service offer. This project analyses a disruptive model that introduces a new paradigm change in the service commercialisation, known as Bottom-Up and it requires a certain level of co-ordination among users, in front of the traditional Top-Down approach. The model created assumes that several users hire a fixed broadband service to be shared in multiple (aggregated) homes. The model is developedunder a dense urban scenario and neighbour communities are defined as the aggregation unit that shares the connection. The conclusion from this paper is that aggregation model of network in the building level is feasible. Other features that extend the results are an increased efficiency, lower investment and long-term sustainability.
En la actualidad la oferta de banda ancha fija dirigida al mercado residencial urbano es amplia y diversa. Por tanto, cada cliente contrata este servicio de forma desagregada independientemente de que el servicio sea compartido con otros usuarios dentro de la misma residencia (familia) o negocio (empleados). Los operadores tradicionales son/nquienes están a cargo de planificar la red, el despliegue y definir la oferta minorista de servicios. En este trabajo se analiza un modelo disruptivo que representa un nuevo cambio de paradigma en cuanto a la comercialización de servicios, metodología conocida como Bottom-Up, que requiere un cierto nivel de coordinación entre los propios usuarios finalistas del servicio, frente al Top-Down tradicional. En el modelo creado se asume que los usuarios se unen para contratar y compartir la conexión de banda ancha fija. El modelo es desarrollado en un escenario urbano denso y define/ncomo unidad de agregación las comunidades de vecinos. La conclusión que se deriva de este documento es que el modelo de agregación de red a nivel de edificio es posible. Otras características que se suman a los resultados son una mayor eficiencia, menor inversión y sostenibilidad a largo plazo.
2014-12-04
2014-12-04
2014-12-04
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22886
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228892018-12-12T15:52:08Zcom_10230_20650com_10230_16441col_10230_22179
Disseny i implementació d’un classificador de textos per a esdeveniments de Facebook
Fabregat Pappaterra, Pau
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Mohamed Sordo
Aquest treball proposa el disseny i implementació o d`un classificador de textos que, en concret, classifiqui els esdeveniments provinents del graf social de Facebook en 5 categories diferents. A més, el classificador implementat ha de tenir la capacitat de gestionar i classificar esdeveniments que no havia vist prèviament i ser capaç de descartar els esdeveniments que no formen part de cap de les 5 categories predefinides, per poder fer servir aquest classificador com a motor d`una aplicació real.
The goal of this work is to design and implement a text classi er, in particular we want an implementation which is able to classify events from the Facebook social graph. We have de ned 5 categories regarding the classi cation task. Moreover the The goal of this work is to design and implement a text classifier, in particular we want an implementation which is able to classify events from the Facebook social graph. We have defined 5 categories regarding the classification task. Moreover the classifier implementedshould be able to manage and classify events that had not been seen previously and it has also to be able to identify those events that are not from the 5 predefi ned categories.
2014-12-05
2014-12-05
2014-12-05
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22889
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228902018-12-12T15:51:18Zcom_10230_20650com_10230_16441col_10230_22179
A real-time encoding tool for Higher Order Ambisonics
Corcuera Marruffo, Andrea
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Daniel Arteaga; Davide Scaini
This report presents the study of the spatial audio method called Higher Order Ambisonics,together with its physical and operational principles. In order to understand what is spatial audio, the human sound localization techniques are explained, and the di erent systems intended to create a sense of directionality are analyzed and evaluated. The traditional methods like stereo or surround are reviewed, as well as spatial audio techniques, such as channel-based binaural and VBAP (panning) systems, and the channel-independent methods WFS and Ambisonics, which are based on the sound eld reconstruction. First Order Ambisonics is an encoding method developed mainly by Michael A. Gerzon in the 1970s, based on the premise that the sound eld can be represented as a superposition of plane waves. Higher Order Ambisonics, developed in the 1990s, extends this approach using more channels, meaning an improvement of the directionality and accuracy in the area where the sound- eld is reproduced. As an application of HOA spatialization, a 3D composition with point and extended sources is done by using a third order encoder. This encoder is designed and implementedwith the goal of placing and moving sounds in all directions in space. For itsdevelopment the programming language Pure Data has been used and a graphical interface is created to control the di erent sources of the developed composition.
Este trabajo presenta el estudio del método de audio espacial llamado Ambisonics de Orden Superior, sus principios físicos y de funcionamiento. Con el fin de entender qué es el audio espacial se explicar an las técnicas de los humanos de localización sonora, y los diferentes sistemas destinados a crear un sentido de direccionalidad se analizarán y evaluarán. Se presentan los métodos tradicionales como estéreo o surround, así como las técnicas de audio espacial, entre los cuales están los sistemas binaurales basados en canal y VBAP (panning), y los métodos independientes de canal WFS y Ambisonics, basados en la reconstrucción del campo de sonido. Ambisonics de primer orden es un m etodo de codificación desarrollado por Michael A. Gerzon en los años 70, basado en la premisa de que el campo sonoro puede representarse como una superposición de ondas planas. Ambisonics de Orden Superior, desarrollado en los 90, extiende este enfoque al uso de m as canales, lo que significa una mejora de la direccionalidad y una precisión en el área donde el campo sonoro es reproducido. Como aplicación de esta técnica, se realiza una composición 3D con fuentes puntuales y extendidas usando un codificador de tercer orden. Este codificador es diseñado e implementado con el objetivo de permitir posicionar y mover sonidos en todas direcciones en/nel espacio. Para su desarrollo se ha usado el lenguaje de programación Pure Data, con el que se crea una interfaz gráfica para controlar las diferentes fuentes de la composición desarrollada.
2014-12-05
2014-12-05
2014-12-05
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22890
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228912018-12-12T15:49:00Zcom_10230_20650com_10230_16441col_10230_22179
Simulation, visualization and image quality analysis of cardiac interventional X-ray
Magallón Baro, Alba
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Daniel Arteaga
Spatial resolution, noise, contrast or geometric distortion, are some of the principal factors that determine X-ray imaging quality. By adjusting various parameters of the medical imaging system, such as the tube voltage, the tube current, geometric distances/nor the angle of view, it is possible to control the presence of a particular electromagnetic radiation: the scattered radiation. Such radiation contributes to a reduction of contrast and adds noise; in consequence, the contrast-to-noise ratio gets worse and the image quality degrades. The main goal of this thesis is to understand the physical phenomenon behind X-rays and how the aforementioned parameters influence the final images in the presence of scattered radiation. For creating the X-ray images, a simulation tool developed in Philips Research called Diphos (Diagnostic Photon Simulation) for acquiring primary and scatter radiation is used. For reproducing other sources of image quality degradation coming from the medical system itself, such as photon noise, electronic noise or the detector blurring, Matlab has been used. In parallel, a visualization tool for Google SketchUp has been designed in order to depict the simulated scenarios. Hence, the study consists of the simulation, visualization and image quality analysis of X-ray images. As a clinical scenario, cardio imaging was used, with the aim of visualizing as good as possible the coronary arteries.
La resolució espacial, el soroll, el contrast o la distorsió geomètrica són alguns dels factors més importants per determinar la qualitat en les imatges mèdiques de raigs-X. L’ajust de diversos paràmetres controlables en els sistemes mèdics durant l’adquisició de les imatges, com ara el voltatge o el corrent induït en el tub, les distàncies geomètriques dels aparells o punt de vista des d’on s’adquireixen les imatges, poden controlar la quantitat de presència d’una radiació electromagnètica molt particular: la radiació scatter. Aquesta radiació és una font de soroll i reducció de contrast en les imatges, que en conseqüència, fa que la relació contrast-soroll empitjori i degradi la imatge. L’objectiu d’aquest projecte és entendre quins fenòmens físics hi ha darrere dels raigs-X i com els paràmetres anteriors influeixen en la presència de radiació scatter en les imatges finals. Per tal de crear les imatges, s’utilitza una eina de simulació desenvolupada a Philips Research anomenada Diphos (Diagnostic Photon Simulation) per adquirir la radiació primària i scatter. Per simular les altres fonts de soroll venint del propi sistema mèdic, com el soroll dels fotons, el soroll electrònic o inclús la difuminació provocada pel cross-talk del detector, s’utilitza Matlab. Paral·lelament, també es dissenya una eina de visualització dels sistemes a simular per a Google SketchUp. Així doncs, l’estudi consisteix en simular, visualitzar i avaluar la qualitat d’imatges de raigs-X, amb l’objectiu de veure de la millor manera possible les arteries coronàries.
2014-12-05
2014-12-05
2014-12-05
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22891
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228922018-12-12T15:47:15Zcom_10230_20650com_10230_16441col_10230_22179
Play your Mood: un enllaç entre les emocions i el contingut emocional de la música
Farrés Franch, Marcel
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Rafael Ramirez Meléndez
L’objectiu principal d’aquest treball és el de generar un prototip funcional que permeti, a temps real, visualitzar l’estat anímic del subjecte. En aquest projecte es fan servir tècniques de Brain Computer Interface (BCI) tant per a la captació de senyals fisiològiques EEG /Electrocardiograma (ECG) com per a la posterior extracció de l’estat emocional del subjecte. A partir de l’aproximació d’aquest estat emocional, es selecciona i reprodueix una música classificada d’acord amb l’estat d’ànim. El reproductor permet visualitzar tant dades provinents de l’EEG, com de la música que està sonant. La qualitat de visualització és prioritària per després poder utilitzar-la en aplicacions de neuro-feedback. La viabilitat del treball esta fonamentada en estudis de Brain–Computer Interface (BCI), en els que es presenten algoritmes d’extracció de l’estat emocional. En aquest treball s’han escollits algoritmes que exploren la potència de les diferents freqüències de l’EEG, i en el nivell de simetria existent entre els dos hemisferis.
2014-12-05
2014-12-05
2014-12-05
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22892
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228932018-12-12T15:46:55Zcom_10230_20650com_10230_16441col_10230_22179
Bowing the violin: A case study for auditory-motor patterning in the context of music performance
Llimona Torras, Quim
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Esteban Maestre Gómez
This project addresses methodological and technological challenges in the development of multi-modal data acquisition and analysis methods for the representation of instrumental playing technique in music performance through auditory-motor patterning models. The case study is violin playing: a multi-modal database of violin performances has been constructed by recording different musicians while playing short exercises on different violins. The exercise set and recording protocol have been designed to sample the space defined by dynamics (from piano to forte) and tone (from sul tasto to sul ponticello for each bow stroke type being played on each of the four strings (three different pitches per string) at two different tempi. The data, containing audio, video, and motion capture streams, has been processed and segmented to facilitate upcoming analyses. From the acquired motion data, the positions of the instrument string ends and the bow hair ribbon ends are tracked and processed to obtain a number of bowing descriptors suited for a detailed description and analysis of the bow motion patterns taking place during performance. Likewise, a number of sound perceptual attributes are computed from the audio streams. Besides the methodology and the implementation of a number of data acquisition tools, this project introduces preliminary results from analyzing bowing technique on a multi-modal violin performance database that is unique in its class. A further contribution of this project is the data itself, which will be made available to the scientific community through the repovizz platform.
2014-12-05
2014-12-05
2014-12-05
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22893
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228942018-12-12T15:45:37Zcom_10230_20650com_10230_16441col_10230_22179
Estudi de la geometria i la dinamització d'avatars 3D utilitzant Microsoft Kinect
Rios España, Jordi
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Pol Cirujeda
En els últims anys el procés de captura de moviment ha estat basat en l'adquisició de dades amb sensors físics per animar models del món real. Degut a la complexitat logística que requereix aquesta tècnica, l’aparició d’una alternativa basada en càmeres de profunditat com Microsoft Kinect ha obert tot un ventall de possibilitats en l’industria no tan sols de l’animació sinó també mèdica i de l’esport. En aquesta línia de treball, diferents mètodes són necessaris per animar un model humà; l’obtenció de dades fent ús del sensor de profunditat i el seu postprocessat i filtratge per aconseguir un model natural i realista del cós humà; calcular i afitar una estructura esqueletal d’una manera eficaç d'acord amb el volum de dades depurades obtingut; i finalment la dificultat d’aconseguir animar l’avatar d’acord al moviment humà amb diferents mètodes de skinning. El propòsit d’aquest projecte per tant, consisteix en l’estudi geomètric, l’animació i la deformació de malles en 2D i 3D fent servir Microsoft Kinect.
In the last years the motion capture process was based on data acquisition with physical sensors in order to animate models of the real world. Due to the logistical complexity this technique requires, the appearance of an alternative based on depth cameras such as Microsoft Kinect has opened a range of possibilities, not only in the entertainment industry, but also on medical and the sports areas. In this line of work, different methods are needed in order to animate a human model; obtaining data using the depth sensor and its post-processing and filtering in order to achieve a natural and realistic model of the human body; calculate and embed a skeletal structure to the volume data obtained in an efficient way; and finally the difficulty of animating an avatar according to human motion with different methods of blending. The purpose of this project therefore is to study the geometry, animation and deformation of meshes in 2D and 3D using Microsoft Kinect.
2014-12-05
2014-12-05
2014-12-05
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22894
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228952018-12-12T15:42:22Zcom_10230_20650com_10230_16441col_10230_22179
Prototipatge d’un algorisme de personalització de llistes de reproducció musical adaptades a afectats d’Alzheimer
Abelló Guimet, Guillem
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Emilia Gómez Gutiérrez; Perfecto Herrera Boyer
Al món actual, l’esperança de vida dels éssers humans és cada cop més llarga, aquest fet és el motiu pel qual ens trobem amb un increment important de malalties degeneratives relacionades amb l’edat. Malalties que abans es coneixien poc, degut a que la gent moria abans de patir-les. Una d’aquestes malalties és l’Alzheimer, que s’ha convertit en una de les principals patologies del segle XXI, afectant a un percentatge molt elevat de persones de la tercera edat. El fet que aquesta demència estigui tan estesa ha encès les alarmes a la comunitat científica per tal de poder-hi trobar una cura, tot i que actualment només s’ha aconseguit retardar-ne els efectes. Alguns estudis han demostrat que la música, igual que les olors, queda emmagatzemada a una part molt profunda de la memòria i pot ajudar així en els tractaments de l’Alzheimer. Fins ara aquests tractaments s’han fet seleccionant manualment cançons que puguin aportar records a la persona, ajudant-la així a mantenir activa la memòria. L’objectiu d’aquest treball és crear un prototip de l’algorisme ideat prèviament al MTG, per facilitar i agilitzar la tasca de creació d’aquesta llista musical, que ha d’acabar sent la banda sonora de la vida d’una persona.
At the current time, human’s life expectancy is getting longer and this fact is the reason why we are finding a significant increase in age-related degenerative diseases. Diseases, which were poorly known due to the fact that people died before undergoing them. One of these is Alzheimer’s disease, which has become one of the century main pathologies, affecting a high percentage of elderly people. The fact that this dementia is so widespread has raised the alarms in the scientific community for being able to find a cure, although they had only get a delaying of its effects. Some studies have shown that music, like smells, is stored at a very deep memory place and can thus help in Alzheimer’s treatment. So far these treatments have been done by manual selection of the songs, which could bring memories to the patient, thus helping keeping an active memory. This work aim is to create a prototype of the algorithm previously devised by MTG, so it could facilitate and speed up the musical list creation, that should end being the person’s life soundtrack.
2014-12-05
2014-12-05
2014-12-05
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22895
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228962018-12-12T15:42:52Zcom_10230_20650com_10230_16441col_10230_22179
Caracterització automàtica d’estàndards de jazz en gravacions de piano mitjançant la detecció d’acords
Rodriguez Facerías, Lídia
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Emilia Gómez
L’anàlisi computacional de la música mitjançant l’anàlisi i extracció de diferents característiques de l’àudio pot ajudar a la identificació de versions de la mateixa cançó, en base a l’harmonia, el ritme i la melodia. L’objectiu d’aquest projecte és explorar la música de jazz des d’un punt de vista computacional, centrant-se en l’anàlisi harmònic. Es proposa un disseny d’un sistema d’identificació d’estàndards de jazz a partir de enregistraments reals de piano que ens permetrà identificar l’estàndard que s’està tocant en cada gravació. Aquest sistema es basa en la extracció computacional de la progressió harmònica utilitzant diferents tecnologies com són la extracció de croma (distribució de notes), la detecció de l’acord i la estimació del tempo musical. Després de l’anàlisi, el sistema utilitza tècniques per tal d’avaluar el resultat de forma qualitativa i quantitativa comparant les estimacions automàtiques amb anotacions harmòniques manuals fetes a una col·lecció de 75 versions de 8 estàndards representatius del piano jazz.
The computational analysis of music through the analysis and extraction of different audio features can help on the identification of versions of the same song, based on the harmony, melody or rhythm analysis of the song. The aim of this project is to explore jazz music from a computational point of view, focusing on the harmonic analysis. A system for jazz standards identification is proposed and designed, so that starting with a real audio piano recording we can recognize with jazz standard is being played. This system is based on the computational extraction of the harmonic progression using different techniques, like the chroma (distribution of notes), chord detection and tempo estimation. After the analysis, the system uses different evaluation techniques to compute a qualitative and quantitative analysis comparing the automatic estimation with the harmonic annotations made manually over a collection of 75 different versions of 8 relevant jazz standards in the piano jazz context.
2014-12-05
2014-12-05
2014-12-05
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22896
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228972018-12-12T15:43:11Zcom_10230_20650com_10230_16441col_10230_22179
Síntesis de voz cantada y canto coral: "Herramienta de ensayo para integrantes de coros clásicos"
Justel Pizarro, Luis María
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Jordi Bonada Sanjaume; Martí Umbert Morist.
Actualmente las agrupaciones corales raramente se benefician de la tecnología musical para mejorar sus ensayos y actuaciones. Con este trabajo pretendemos despertar el interés de las corales, por la síntesis de voz cantada, que aplicada en este contexto permitiría ensayar individualmente con un coro virtual en casa. Este proyecto tiene como objetivo la implementación de un sistema capaz de sintetizar partituras de canto coral tanto en castellano como en latín, basándose sobre todo en los repertorios de coros clásicos actuales, generando una librería online de canto coral sintético, proporcionando tanto a cantantes como directores un instrumento de ensayo y perfeccionamiento de sus interpretaciones, a la que tendrán acceso en forma de interfaz web, y a partir de la cual podrán ser capaces de escoger de entre diversas piezas musicales, cada una de ellas con la posibilidad de poder ser sintetizada con diferentes configuraciones corales y musicales, según deseo o necesidad del cantante.
Currently the choirs rarely benefit from technology to enhance their musical rehearsals and performances. This paper tries to interest choirs for singing voice synthesis, which applied in this context would be tested individually with a virtual choir at home. This project aims to implement a system capable of synthesizing scores of choral singing in both Spanish and Latin, relying instead on existing repertories of classical choirs, creating an online library of synthetic Choir, providing both singers and directors a tool for testing and perfecting their performances, which they could access through a web interface, which will be able to choose from various musical pieces, each with the possibility to be synthesized with different chorals and musical configurations, as singer desire or need.
2014-12-05
2014-12-05
2014-12-05
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22897
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228982018-12-12T15:44:13Zcom_10230_20650com_10230_16441col_10230_22179
Anàlisi i generació algorísmica de línies de baix en estil Funk
Verdaguer Morales, Enric
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Sergi Jordà Puig
El projecte que es presenta pretén reproduir de la manera més verídica i interactiva possible les línies de baix en l’estil funk de forma automàtica. Durant la història, han estat molts els investigadors que han treballat en la generació automàtica de música, ja sigui amb hardware que, per diferents factors ambientals i aleatoris, generaven música, fins, més recentment el desenvolupament de software (en els últims anys, fins i tot de manera comercial) capaç de generar música a partir de paràmetres que insereixi l’usuari, com l’estil o els acords. Aquest projecte neix amb la idea d’investigar aquest món des d’un nínxol molt ben definit: un instrument i un estil concrets: el baix elèctric i el funk. Per a poder desenvolupar el nostre projecte, a part de conèixer bé els diferents processos de generació de música que s’han utilitzat, també s’ha fet recerca per a entendre bé el baix elèctric pel que fa a so i propietats d’aquest, i fer un anàlisi detallat de l'estil per així poder-ne reproduir les característiques amb la màxima precisió. A través de l’anàlisi i de l’estudi de manuals de teoria musical, baix elèctric i funk, s’ha intentat assolir el coneixement suficient per a desenvolupar un programa capaç de realitzar una generació acurada i que s’adapti bé als paràmetres i preferències de l’usuari.
This project is an approach to interactively, truthfully and automatically replicate funk style based bass lines. Throughout history, many researchers have worked in automatic music generation using both hardware and software. Hardware which produces sound as a result of ambient random factors, and software -more recently the so called commercial software- able to generate music from the user’s input such as style or chords. This project is created with the idea to investigate this world from a well-defined niche: an instrument and a specific style: the bass guitar and funk. In order to fully develop our project, a thorough knowledge of the already used generative projects will be necessary. Additionally, it will be also necessary to do some research to better understand the qualities of the electric bass guitar and its sound, as well as to deeply analyze the funk style to be able to accurately reproduce its qualities. Through the analysis and study of Music theory and the electric bass and funk Manuals, we attempted to acquire enough knowledge to develop a suitable program capable of performing an accurate automatic music generation according to the parameters and preferences of the users.
2014-12-05
2014-12-05
2014-12-05
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22898
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/228992018-12-12T15:44:30Zcom_10230_20650com_10230_16441col_10230_22179
Interacción persona-objeto mediante computación ubicua
García Navarro, Diego
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Joan Melià Seguí
Este proyecto tiene como objetivo detectar de forma desasistida la actividad del usuario con los objetos del entorno en tiempo real, con el fin de mejorar los procesos en entornos comerciales, haciendo uso de la tecnología Radio Frequency Identification (RFID). Para ello se presenta un sistema de clasificación basado en Machine Learning que utiliza información de distintos parámetros RFID y Arduino para obtener mayor información sobre la interacción de las personas con los objetos que están situados en una Smart Shelf (estantería inteligente). Esta información podría permitir que un usuario que cogiese un libro de una estantería visualizase en una pantalla los libros de las temáticas relacionadas y que un led de manera visual le indicase la selección del libro. Para mejorar la precisión en la clasificación se utilizan los parámetros RFID de la antena principal que detecta cada objeto con mayor intensidad. Así pues, se concluye que el sistema clasifica la interacción de los objetos con un 82% de acierto. Como trabajo futuro, se pretende mejorar el modelo añadiendo más parámetros RFID para perfeccionar la detección de la interacción, como también la evaluación en un entorno comercial real.
This project aims to detect user activity with objects in the environment in real time in an unassisted manner, to improve processes in commercial environments, using the Radio Frequency Identification (RFID) technology. This work presents a classification system based on Machine Learning that uses information from RFID and Arduino parameters. The goal is to obtain more information on the interaction with the objects that are located in a Smart Shelf. This information would allow a user to take a book from a shelf, and books on similar topics would be displayed on a screen together with a led, visually showing the selection of the book. To improve the accuracy in the classification, the RFID parameters from the main antenna detecting each tag are used. We demonstrate that the system classifies the interaction of objects with 82% accuracy. As a future work, we propose to add more RFID parameters to improve the detection of the interaction, as well as evaluation in a real business environment.
2014-12-05
2014-12-05
2014-12-05
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22899
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/229022018-12-12T15:44:44Zcom_10230_20650com_10230_16441col_10230_22179
Automatic movie genre classification based on musical descriptors
Boixx Luna, Pau
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Emilia Gómez
Although cinema is an art with a history of just over a 100 years, its evolution has been much faster than any other form of art, both in technology and creativity. However, the essence of cinema has been preserved over the years, and its most essential elements has remained over the huge changes. Regarding soundtracks, these are a key feature to cinema, very defined for the different existing/ngenres. If we focus specially on the most classic genres, we can easily find characteristics that help us link the song to its corresponding soundtrack. This project was conceived with the idea of study the evolution of soundtracks in order to understand its characteristics, and using “Music Information Retrieval” methods, being able to gather the necessary information from songs of different soundtracks and compare them, obtaining relevant common characteristics of a genre. This process will allow to determine the characteristics of a genre, and with the use of machine learning algorithms, be able to classify in real time new songs, comparing the obtained data with the saved one. Finally, the results of this project aim to contribute to the future development of the analysis of movie soundtracks, allowing not only the automatic classification of genres, but also understanding its characteristics.
Tot i que el cinema és un art amb una història de poc més de 100 anys, la seva evolució ha estat molt més ràpida que la de qualsevol altre art, tant pel que fa a la seva tecnologia com a la vessant creativa. Tot i així, la essència del cinema s’ha conservat al llarg dels anys i els seus elements més essencials s’han mantingut per sobre els grans canvis. Pel que fa a les bandes sonores, aquests són uns elements clau en el cinema i estan molt definides i en els diferents gèneres existents. Si ens fixem sobretot en les bandes sonores dels gèneres més clàssics, podem trobar fàcilment característiques que fan que identifiquem ràpidament la cançó amb el gènere corresponent. Aquest projecte neix precisament amb la idea estudiar l’evolució de les bandes sonores per tal d’entendre’n les seves característiques, i mitjançant mètodes d’extracció de dades, i de “Music Information Retrieval” poder obtenir la informació necessaria de les cançons de diferents gèneres per tal de poder-les comparar entre elles i obtenir així dades rellevants sobre les característiques comunes en un mateix gènere. Aquest procés ens permetrà determinar les característiques dels gèneres, i mitjançant algoritmes de machine learning, classificar en temps real noves cançons, comparant les dades obtingudes amb les dades guardades. Finalment, els resultats d’aquest projecte tenen com a intenció contribuir en el futur desenvolupament de l’anàlisi de bandes sonores, permentent no només classificar gèneres, sinó entendre’n les característiques
Classificació automàtica
2014-12-09
2014-12-09
2014-12-09
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22902
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/229032018-12-18T11:32:13Zcom_10230_20650com_10230_16441col_10230_22179
Estudi de neuromàrqueting basat en aprenentatge automàtic
Salvadó Tàpies, Jordi
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Rafael Ramírez
Currently, the curiosity to understand how the human brain works and create brain-computer interfaces (BCI) has increased considerably due the great interest in figure out the biological foundations of thoughts, people’s emotions, as well as trying to simulate the human brain with computers. In this record, we extract the signals produced by the brain activation to visual/ stimulus associated with the marketing technique of non-invasive electroencephalogram (EEG). The signal extracted with electrodes has to be filtered, amplified and processed, as they are low intensity signals and produce unwanted artifacts. Once the signal is filtered, we extract excitement or relaxation descriptors (Arousal) and negative or positive status (Valence), in order to obtain an estimate of the emotional state of a person. Using these emotional indicators, we apply machine learning algorithms to predict purchasing behaviors of a group of people in the marketing context.
En l’actualitat, la curiositat per comprendre com funciona el cervell humà i crear una interfície cervell-computador (BCI), ha augmentat considerablement pel gran interès en comprendre els fonaments biològics dels pensaments, emocions de les persones, així com intentar simular el cervell humà amb computadors. En aquest treball extraiem les senyals produïdes per l’activació cerebral d’uns estímuls visuals vinculats al màrqueting amb la tècnica no invasiva del electroencefalograma (EEG). La senyal extreta amb elèctrodes s’ha de filtrar, amplificar i processar, ja que són senyals de poca intensitat i es produeixen artefactes no desitjats. Una vegada filtrat el senyal, extraiem descriptors d’excitació o relaxació (Arousal), i estat negatiu o positiu (Valence), per obtindre un estimat de l’estat emocional d’una persona. Utilitzant aquets indicadors emocionals, apliquem algoritmes d’aprenentatge automàtic per preveure les decisions de compra d’un conjunt de persones en el context del màrqueting.
2014-12-09
2014-12-09
2014-12-09
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22903
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/229042018-12-12T15:31:01Zcom_10230_20650com_10230_16441col_10230_22179
Fake me: face aligment via keypoint extraction for mapping expressions
Garriga Peguero, Marc
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Xavier Binefa; Oriol Martínez Pujol
L’objectiu d’aquest Treball de Fi de Grau (TFG) és la concepció i implementació d’un mètode conegut dins del mon de la Visió per Computador com a Face Transfer (Transferència de Cares). Donades dues cares, l’objectiu del mètode proposat és poder transferir les expressions i característiques facials d’una cara cap a l’altre. O sigui, ser capaç d’aplicar un “mapping” que ens permeti animar la cara o avatar d’un personatge qualsevol a través dels moviments d’una altre cara, per exemple la nostra. Hi han moltes formes de poder realitzar el mapping entre la informació de dues cares. En el nostre cas, proposem fer-ho dividint-les en zones (triangles), mitjançant la detecció d’uns punts característics prèviament definits. Un cop obtingudes les zones, transferim les corresponents textures utilitzant coordenades baricèntriques per realitzar el mapeig de coordenades i una tècnica coneguda com a Multiband Blending per fusionar d’una manera suau les textures de les dues cares. En aquest TFG hem explorat dos escenaris en l’aplicació de la tècnica de Face Transfer. El primer escenari és el mapeig de la textura d’una imatge sobre una altre cara en moviment al llarg d’una seqüència de vídeo. El segon és el cas invers, l'animació d'un avatar (una imatge) mitjançant les expressions facials captades en un vídeo.
The aim of this TFG is the conception and implementation of a method known in Computer Vision as Face Transfer. Given two faces, the objective of this method proposed is to be able to transfer of expressions and facial features from a face to another. This means, being able to apply a mapping that allows us to animate face or avatar of any character through the movement of another face, for instance, our face. There are many ways to map the information between two faces. In our case, we propose to divide the faces into triangular regions, through featuring points detection previously defined. Once we got the regions, we can transfer the correspondent textures using barycentric coordinates to map and a technique known as Multiband Blending to merge both face textures in a smooth way. In this TFG we have explored two scenarios in the application of Face Transfer technique. First one is a texture mapping of an image over another in movement along a video sequence. The second one is the inverse situation, an avatar animation through the facial expressions captured in a video sequence.
2014-12-09
2014-12-09
2014-12-09
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22904
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/229052018-12-12T15:31:48Zcom_10230_20650com_10230_16441col_10230_22179
Interacció cinematogràfica amb sensors d’electrocardiograma
Rodríguez Alonso, Aitor
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Manel Jiménez; Sebastian Mealla
Aquest treball tracta sobre l’aplicació de les reaccions involuntàries del cos humà a l’àmbit cinematogràfic. Es realitzarà un petit curtmetratge en què un subjecte serà sotmès a unes preguntes policials que intentaran posar nerviós a l’usuari, que estarà connectat a l’ordinador a través d’uns sensors que mesuraran els impulsos elèctrics que produeixen els batecs del cor. L’objectiu d’aquest experiment és l’adaptabilitat del vídeo segons les reaccions de la persona que ho està veient, és a dir, que pugui canviar depenent de si l’usuari que l’està visualitzant està tranquil o nerviós, a través de les dades numèriques obtingudes pel sensor que indicaran el voltatge amb el qual es produeixen els batecs. D’aquesta manera, el mateix vídeo podria tenir històries diferents amb diversos finals.
This project is about the application of involuntary reactions of the human body to the cinematographic environment. A short film will be made in which a subject will be submitted to a police interrogation so that the user become nervous. This subject will be connected to the computer through sensors measuring electric impulses from the heart. The aim of this experiment is the video adaptability to the reactions of the subject who is watching it, that is, that the video could change depending on user’s behavior. The display uses data from the sensor that will indicate the voltage produced by the heartbeats. This way, the same video or film could have different stories with multiple endings.
2014-12-09
2014-12-09
2014-12-09
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22905
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Treball de fi de grau en Sistemes Audiovisuals
oai:repositori.upf.edu:10230/229062018-12-12T15:34:07Zcom_10230_20650com_10230_16441col_10230_22179
Individualized beamford for coclear implant users
López Paramio, Marta
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Waldo Nogueira; Ralph G. Andrzejak
Speech intelligibility in noise environments is still very limited for cochlear implants users (CIs). In this work two methods to improve the signal-to-noise-ratio (SNR) in noisy environments have been designed. The first method is based on the well-known Generalised Sidelobe Canceller (GSC). A second method called Transfer Function GSC (TF-GSC) has been modified such that can be incorporated into a CI sound processor. The aim of this project is to optimize the performance of the beamformer to each individual CI user. The beamformers have been analysed in different room environments and with different background noises. Objective measures in a computer suggest that the TF-GSC provides with better SNR than the standard GSC while producing less distortion to the speech signals. Subjective measures in CI users have been performed to assess the perceptual distortion and the speech intelligibility with/without the beamformers.
La intel·ligibilitat de la parla en entorns sorollosos encara està limitada per usuaris d’implants coclears (ICs). En aquest treball s’han desenvolupat dos mètodes per millorar la relació senyal-soroll en entorns sorollosos. El primer mètode es basa en el conegut Generalised Sidelobe Canceller (GSC). El segon mètode s’ha modificat el Transfer Function GSC (TF-GSC) per ser incorporat en un processador d’IC. L’objectiu/nd’aquest projecte és optimitzar el funcionament del beamformer per cada individu. Els dos beamformers han sigut analitzats simulant diferents habitacions i amb diferents sorolls de fons. Les mesures objectives realitzades suggereixen que el TF-GSC dona una millor SNR que el estàndard GSC mentre que produeix menys distorsió als senyals de parla. S’han realitzat mesures subjectives amb implantats coclears per avaluar la percepció que tenen de la distorsió i la intel·ligibilitat de la parla utilitzant i sense utilitzar els beamformers.
2014-12-09
2014-12-09
2014-12-09
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22906
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/229072018-01-24T08:05:11Zcom_10230_20650com_10230_16441col_10230_22179
Video collection navigation
Expósito Ventura, Marta
Treball de fi de grau en Sistemes Audiovisuals
Given the ubiquitous camera devices at hand for practically everybody and the ease to share media, the amount of video data around us is growing faster and faster. However, navigation systems for these data have not evolved very much over the years. When we have thousands of clips, navigate through that video collection could become a tedious task. In this project we present two different solutions to that problem. The first one consists in navigating through the collection in a temporal way: by showing videos only when there is an overlapping period of time previously found. The second one consists in letting the user to move himself through the video space: to change from his current video to another one recorded from a different relative position. We have explored different video analysis techniques such as interest point matching, point tracking and spatial transformations, while applying graph analysis techniques to build meaningful navigation schemas. Results on novel human-machine interfaces are presented to validate the workflow.
Dada la gran cantidad de dispositivos con cámaras y las facilidades de compartir cualquier tipo de media en las redes sociales o en internet, el volumen de videos a nuestro alrededor es cada vez mayor. Aun así, los sistemas para reproducir videos no han evolucionado durante todos estos años y cuando tenemos una colección de videos con más de mil ficheros, explorarlos puede convertirse en un trabajo pesado. Nosotros proponemos dos soluciones para este problema. La primera consiste en mostrar al usuario un video central todo el tiempo y los otros videos cuando haya una superposición temporal (previamente encontrada). La segunda propuesta consiste en navegar la colección de videos espacialmente, cambiando de un video a otro que esté grabado en una dirección relativa diferente a la actual. Hemos explorado diferentes técnicas de análisis de video como por ejemplo emparejar puntos de interés, seguimiento de puntos y transformaciones espaciales. También hemos usado grafos para estructurar información y hemos analizado diferentes posibilidades de interfaces.
2014-12-09
2014-12-09
2014-12-09
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22907
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/229082018-12-12T15:35:36Zcom_10230_20650com_10230_16441col_10230_22179
Aplicación de resúmenes automáticos de noticias de prensa en línea
Jacas Puig, Sergi
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Horacio Saggion
Este proyecto propone el estudio y desarrollo de una aplicación de resúmenes automáticos de noticias en línea, tratando como idioma preferente el castellano. Se utilizará el entorno integrado de desarrollos (IDE)1 de Netbeans para llevar a cabo la programación en lenguaje Java de la aplicación. En ella los recursos utilizados para obtener el resumen de las noticias serán desarrollados por una aplicación GATE .gapp compuesta por la herramienta SUMA Plugin. La aplicación, a partir de la selección del porcentaje a resumir de las noticias, generará resúmenes de las últimas noticias de varios ámbitos de la prensa en línea, es decir, incorporará una actualización automática de los resúmenes de las noticias mediante la utilización de directorios web RSS y un servidor web.
This project proposes the study and development of an automatic application for online news summarization, treating as preferential the Spanish language. Integrated Development Environment (IDE)2 of Netbeans is used to carry out the Java language’s programming of the application. In it the resources used to obtain the summary of the news will be developed by a GATE application .gapp with the SUMMA Plugin tool. The application, from the selection of the percentage to summarizing of the news, will generate summaries of the latest online news of miscellaneous categories by selecting the percentage to summarize the news online, that is to say incorporate an automatic update of the summaries of the news by using web directories RSS and web server.
2014-12-09
2014-12-09
2014-12-09
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22908
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/229092018-12-12T15:38:13Zcom_10230_20650com_10230_16441col_10230_22179
Sistema de seguimiento de usuarios y detección de comportamientos basado en Kinect
Carrera Sorribes, Carlos
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Narcís Parés
En este trabajo se presenta el diseño y implementación de un sistema de seguimiento de usuarios y detección de comportamientos utilizando el dispositivo Microsoft Kinect TM y su kit de desarrollo. Este módulo está integrado en la aplicación interactiva "Pico's Adventure", un videojuego de interacción a cuerpo entero para niños con Trastornos del Espectro Autista (TEA) destinado a promover la iniciación social. Dicho sistema forma parte del proyecto europeo M4ALL, proyecto con el fin de desarrollar aplicaciones basadas en el movimiento para niños con discapacidades motoras e intelectuales. Durante el diseño y desarrollo se ha hecho un estudio del juego original para poder aprovechar los sistemas de comunicación basados en el patrón observer implementados en el motor del juego, y de las necesidades específicas de los niños con TEA. El sistema implementado es capaz de detectar diferentes tipos de usuario, ciertas interacciones, tales como saludar o darse la mano con otra persona, e incluso el espacio idóneo de interacción según las necesidades del videojuego. Estas funcionalidades son necesariaspara que la aplicación ofrezca mecánicas de juego que promuevan la iniciación social de los niños con sus familiares, terapeutas o cuidadores, aprendiendo así comportamientos sociales básicos de forma lúdica.
In this paper is presented the design and implementation of a tracking system and user behavior detection using the Microsoft Kinect TM device and its Development Kit. This module is integrated into the interactive application "Pico's Adventure," a whole body/ninteraction video game for children with Autism Spectrum Disorders (ASD) to promote social initiation. This system is part of the European project M4ALL in order to develop motion-based applications for children with intellectual or motor disabilities. During the design and development there has been a study of the original game to take advantage of communication systems based on the observer pattern implemented in the game engine, and the specific needs of children with ASD. The implemented system is able to detect different types of users, certain interactions, such as greetings or shaking hands with another person, and even the ideal space for interaction according to the needs of the game. These features are necessary for the application to offer game mechanics that promote social initiation of children with their families, therapists and caregivers, thus learning basic social behaviors in a playful way.
2014-12-09
2014-12-09
2014-12-09
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/22909
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Aquest document està subjecte a una llicència Creative Commons
oai:repositori.upf.edu:10230/233842018-01-24T08:05:31Zcom_10230_20650com_10230_16441col_10230_22179
Plataforma de ocio interactiva para gente mayor: Tertulies Actives
Lavilla Rodrigo, José Emilio
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Joaquim Colàs
Las nuevas tecnologías presentan una dificultad de aprendizaje para la gente mayor. Para reducir/nesta brecha tecnológica, se han ido desarrollando juegos interactivos simples (destinados/nprincipalmente para los más pequeños de la familia y los adultos de la tercera edad) que permitan/nun primer contacto con ordenadores de una manera sencilla y divertida./nLa plataforma de ocio interactiva Tertulias Activas pretende acercar las TIC a este sector de la/npoblación con bastantes dificultades tecnológicas. Tertulias Activas consiste en enriquecer las/nactividades cotidianas (socio-culturales y al aire libre) con un componente tecnológico y lúdico/nmediante la realización de rutas, previamente creadas en la misma plataforma por otros usuarios/no por uno mismo. La tecnología consta de una plataforma web para su realización en/nordenadores y tablets, y de una aplicación móvil para realizar las actividades in situ./nTertulias Activas es un proyecto que se ha basado en dos tecnologías previas orientadas al/nusuario: la plataforma web Worthplay y la aplicación móvil QuestInSitu. El proyecto Tertulias/npretende revalorizar estas dos tecnologías y los conocimientos adquiridos de sus desarrollos/nrespectivos para integrarlos en una nueva plataforma./nEl desarrollo de la plataforma ha seguido la metodología de “diseño participativo”: realizando/nconstantes pruebas con un grupo de personas de la “Escuela de formación para gente mayor/nÁgora La Verneda” para que ellos mismos ayuden a mejorar el diseño en sucesivas iteraciones./nAsí mismo, se ha contado con expertos en el comportamiento de la gente mayor hacia las/ntecnologías, que participaron en Worthplay, a lo largo de todo el desarrollo./nSe ha experimentado con la plataforma para comprobar su fiabilidad y robustez en casos reales/ncon resultados satisfactorios y con datos aportados por los usuarios de la plataforma para poder/ncontinuar mejorando la misma.
New technologies are difficult to learn for old people. To reduce this technological gap simple/ninteractive games have been developed. Older people and children use these games to initiate a/nfirst contact with computers in a simple and fun way./nTertulies Actives is an interactive entertainment platform intended to bring the ICT to old/npeople. Tertulies enhances everyday social and cultural outdoor activities with a ludic and/ntechnological component through the platform routes. These routes may be created previously by/nother users or by oneself. Tertulies Actives uses a multi-platform web application meant for the/ncreation and following of routes on computers and tablets, and also a complementary mobile app/nto follow the activities in situ./nThe Tertulies project is based on two previous user-oriented technologies: the Worthplay/nplatform and the QuestInSitu mobile app. This project aims to revalue and improve both/ntechnologies with the acquired knowledge to integrate them on the new platform./nThe platform development followed the participatory design methodology: doing continuous/ntests to old people group from “Escuela de formación para gente mayor Agora La Verneda”./nWith this methodology, old people helped to improve the design on successive iterations. Some/nexperts in old-people behavior user technologies, which had also participated on Worthplay/nplatform design helped us in our development../nReliability and stability has been assessed through experiments with our platform with successful/nresults./nThe results and observations made during the development and the experiments show that,/nTertulies Actives is an innovative platform that increase the previous experiences from/nWorthplay and QuestInSitu using smartphones. Tertulies Actives has successfully approached/nnew technologies to old people by encouraging outdoor activities and it can be used by any kind/nof user regardless age and previous technical knowledge due to its usability. We also believe our/nfindings point towards a great market potential.
2015-04-10
2015-04-10
2014
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/23384
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/234212018-12-18T12:34:14Zcom_10230_20650com_10230_16441col_10230_22179
Anàlisi d’altaveus en camp proper i camp llunyà per a la calibració de sales de cinema
Vidal de Palol, Eduard
Treball de fi de grau en Sistemes Audiovisuals
Aquest treball és un anàlisi dels sistemes de mesures electroacústics dels cinemes actuals, i en concret, en els altaveus en camp proper i camp llunyà. L’objectiu d‘aquest document és qüestionar i revisar els estàndards actuals de mesures de sales de cinema i oferir nous enfocaments per a la millora sonora entre sales de mescla i cinemes comercials. Aquesta meta es vol obtenir a partir dels resultats adquirits en els experiments que s’han dut a terme i així verificar corrents actuals i donar nous raonaments en les mesures. Les noves propostes i tècniques de mesura en comparació amb les antigues seran determinants per a veure més bé els resultats. La primera part del treball donarà un context general sobre la situació actual de la sonoritat en les sales de cinema, amb les limitacions, antigues i noves propostes donant així un base més extensa per analitzar amb més seguretat els experiments.
2015-04-14
2015-04-14
2015-04-14
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/23421
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/252802018-12-13T15:36:43Zcom_10230_20650com_10230_16441col_10230_22170col_10230_22179
SmartInteraction: Visualització a temps real de la interacció amb objectes etiquetats amb RFID
Claramunt Molet, Aleix
Treball de fi de grau en Telemàtica
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Joan Melià i Raúl Parada
El següent treball s’emmarca dins de la computació ubiqua i proposa detectar la interacció a temps real dels usuaris mitjançant una prestatgeria intel·ligent (Smart Shelf). Disposem d’una prestatgeria equipada amb antenes RFID (Radio Frequency Identification) que retorna diferents paràmetres dels objectes etiquetats que es detecten, com la potència o la fase. A més, disposem d’una placa Arduino equipada amb sensors de llum que proporciona el ground truth de les lectures. Un dels principals problemes que presenta la tecnologia RFID és que varia força amb l’entorn, fet que dificulta establir uns paràmetres fixes per detectar la interacció. Per solucionar-ho, es proposa implementar un algoritme de Machine Learning que permeti entrenar el sistema i buscar els llindars òptims per la detecció de la interacció. Un cop el sistema s’ha entrenat ha de ser capaç de mostrar per pantalla i a temps real quin objecte ha sigut interactuat per l’usuari.
This project takes part of ubiquitous computing and it proposes to detect the interaction in real time through a Smart Shelf. We have a shelf equipped with RFID (Radio Frequency Identification) antennas that returns different parameters of the labelled objects that are detected. Also, we have an Arduino board equipped with light sensors that detects the ground truth of the lectures. The main problem that RFID technology presents is that it varies a lot with the environment and it difficults the task of using fixed parameters to detect the interaction. To solve this, we aim to implement a Machine Learning algorithm that allows us to train the system and find the optimal thresholds. Once the system is trained it has to be able to show in real time what object has been interacted with the user.
2015-12-01
2015-12-01
2015-12-01
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25280
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/253632018-01-24T08:14:10Zcom_10230_20650com_10230_16441col_10230_22179
Basketball ball tracking: towards an automatic detection of infractions
Arbués Sangüesa, Adrià
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Glòria Haro
Technology is being widely used in basketball courts. The best improvement in this field is Instant Replay: a crucial tool used by referees to review, in real time, certain controversial actions of a match handling a screen placed in the officials’ table. The aim of this project is to create a software that could be helpful while using Instant Replay to detect infractions automatically./nThe project basis is an accurate automatic tracking of a basketball ball: first, the foreground is extracted, then, a color filter is applied, and finally, an optical flow algorithm tracks the ball. Having detected the ball, two algorithms have been created in order to detect two common infractions: goaltending and shots out of possession. By recording some homemade videos with three cameras in a professional basketball court, algorithms could be tested, obtaining successful results.
La tecnologia és una eina cada vegada més utilitzada en les pistes de bàsquet. La /nmillora mes substancial en aquest camp ha estat l’Instant Replay: una eina crucial/nper als arbitres que els serveix per revisar accions polèmiques d’un partit a temps /nreal, utilitzant una pantalla situada a la taula d’anotadors. L’objectiu d’aquest projecte/nes crear un programa que pugui ser útil mentre s’usi l’Instant Replay , capaç de detectar infraccions automàticament. /nLa base del projecte és un seguiment de la pilota de bàsquet: primer, s’extreu el /nprimer pla de l’escena, després, s’aplica un filtre de color, i finalment, un algoritme de flux òptic segueix la pilota. Un cop detectada, s’han creat dos algoritmes per identificar dues infraccions típiques: els taps il·legals i els llançaments fora de/ntemps./nS’han grabat vídeos amb un sistema de tres càmeres en una pista de bàsquet professional, amb els quals s’han testejat els algoritmes i s’han obtingut resultats/nsatisfactoris.
2015-12-10
2015-12-10
2015-12-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25363
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/253642018-01-24T08:13:51Zcom_10230_20650com_10230_16441col_10230_22179
Análisis de la producción de fonemas vocálicos para su aplicación en la animación de avatares
Belda Montes, Ferran
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Xavier Binefa
El estudio realizado en este proyecto se basa en el análisis del movimiento de los labios de la cara a la hora de pronunciar fonemas vocálicos con el propósito de estudiar la manera de ofrecer más realismo en la animación de avatares utilizando la técnica "face transfer". Para efectuar dicho análisis se ha empleado Kinect que ha servido para capturar la imagen en color RGB y el mapa de profundidad de la escena. Primero se utilizan las imágenes RGB capturadas durante la pronunciación de los diferentes fonemas y, por medio de un algoritmo del estado del arte para localizar los puntos característicos faciales, se analiza su evolución en el espacio 2D para conocer su comportamiento durante la pronunciación de los fonemas vocálicos. Los datos de profundidad permiten estudiar la evolución de los puntos en las coordenadas XYZ para, finalmente, generar una malla en 3D que permite visualizar las diferencias entre los 5 fonemas vocálicos.
The research that I have done in this project is based on analyzing the movement of the/nlips of the face when pronouncing vowel sounds in order to study how to offer more/nrealism in animated avatars using face transfer technology./nIn order to perform this analysis I have used Kinect camera to capture the image in RGB/ncolour as well as the depth map of the scene./nFirst I have used captured RGB images while I was pronouncing the different/nphonemes and, using an algorithm of the state of art to locate facial feature points, I/nhave analyze its evolution in the 2D space to know their behavior during the/npronunciation of vowel phonemes. From the depth data I have been able to study the/nevolution of the XYZ coordinate points and finally I have generated a 3D mesh that lets/nme visualize the differences among the 5 vowel phonemes
2015-12-10
2015-12-10
2015-12-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25364
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/253652018-01-24T08:32:15Zcom_10230_20650com_10230_16441col_10230_22179
Bassline generation agent based on knowledge and context
Calopa Piedra, Pere
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Sergi Jordà, Perfecto Herrera, Daniel Gómez
The main goal of this project is to develop a musical agent system that generates basslines from a certain style/genre of music. The project combines an automatic generation process with some user interaction. The automatic generation process is based on knowledge extracted from available data (i.e., MIDI files) and real-time adaptation to music context./nInput data consists of a collection bassline loops that are referred to a certain style/genre, so the individual loops must have a relation between them .The system analyzes the collection to extract useful information to model some of the genre conventions with relation to the rhythmic patterning. The knowledge extracted is used to generate basslines that belong to the style/genre of interest, allowing the user to interact with them.
El objectiu principal d’aquest projecte és desenvolupar un agent musical capaç de generar/nlínies de baixos d’un cert estil o génere musical. El projecte combina técniques de generació/nautomàtica i interacció per part de l’usuari. El procés de generació automàtica està basat en/nel coneixement extret de dades (arxius MIDI) i adaptació en temps real al context musical./nLes dades consisteixen en una col·leccío de línies de baixos previament agrupades segons un/nestil o gènere musical, aixó assegura que les línies de baix tindran alguna relació entre elles./nEl sistema analitza la col·lecció per extreure informació rellevant que permeti model la/ncol·lecció utilitzant patrons rítmics. El coneixement extret s’utilitza per a generar línies de/nbaixos que pertanyen a un cert estil musical d’interès, permetent a l’usuari interactuar en la/ngeneració.
2015-12-10
2015-12-10
2015-12-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25365
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/253662018-01-24T08:13:57Zcom_10230_20650com_10230_16441col_10230_22179
Disseny UI / UX d’una interfície web generadora de llistes de reproducció musicals adaptades per a estimular emocions i memòria en pacients d’Alzheimer
Cardell Gayà, Joan Carles
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Emilia Gómez Gutiérrez, Perfecto Herrera Boyer
La neurociència moderna ha permés a l’ésser humà entendre quin es el valor de la música des d’una perspectiva biològica. Rastrejar l’impacte físic d’aquesta en el cervell, per tal de reconèixer els sistemes i mecanismes neurològics involucrats, ha llançat llum a l’evidència de que es produeix l’estimulació de les neurones i connexions nervioses/npresents a la regió cerebral associada amb la memòria a llarg termini. Life Soundtrack esdevé un projecte d’innovació concebit al Music Technology Group com a eina terapèutica per estimular les emocions i records en persones afectades per la malaltia d’Alzheimer. Fins el moment, la feina realitzada s’ha centrat en la conceptualització i prototipatge d’un algorisme adaptat de recomanació musical. L’objectiu d’aquest treball de recerca és el de dissenyar i desenvolupar una interfície audiovisual usable e interactiva, edificada sobre els principis presents al procés de la percepció humana, tenint en compte les característiques emocionals i socials d’aquest col.lectiu i el seu entorn, per tal de facilitar l’accés del mateix a Life Soundtrack.
Modern neuroscience has enabled human being to understand the musical value from a/nbiological perspective. Tracing the physical impact to the brain, in order to recognize/nthe systems and neurological mechanisms involved, has shed light on the evidence of/nneuron’s stimulation and nervous connections located in the brain region associated/nwith long-term memory. Life Soundtrack becomes an innovation project conceived at/nthe Music Technology Group as a therapeutic tool to stimulate memories and emotions/nin people affected by Alzheimer’s disease. Thus far, the accomplished work has focused/non the conceptualitzation and prototyping of an adapteted musical recomentation/nalgorithm. The aim of this research work is to design and develope an usable and/ninteractive audiovisual interface, built on the principles located in human perception,/ntaking into consideration the emotional and social characteristics shown in this/ncollective an its environament, so as to provide it’s own acces.
2015-12-10
2015-12-10
2015-12-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25366
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/253672018-01-24T08:14:08Zcom_10230_20650com_10230_16441col_10230_22179
Cross-cultural differences in crossmodal correspondences between western and xhosa children: implications for design
Corral Cerezo, Víctor
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Salvador Soto-Faraco
This project addressed cultural differences in perceiving crossmodal correspondences, namely, the mental link that often exists between sensory concepts such as visual height and auditory (tonal) height. We studied western children and children from the Xhosa tribe (South Africa). The goal is to try and understand cultural aspects of crossmodal correspondences and more important for us, to understand how such cultural differences can be used to improve future technological designs, towards generating something similar to a collaborative design./nWe present an in-depth review of literature on crossmodal correspondences that grounds the empirical studies (experiments) presented later. These studies are partly based on known basic concepts and partly try to go further in aspects not studied before. An adapted experimental protocol was designed to test a group of spatial crossmodal correspondences we thought would be the most interesting for our goal such as auditory pitch with visual size, lightness and spatial position. We also included specifically technological correspondences, such as scroll up/down and zoom in/out with finger movements and, finally, the known “Takete”/”Maluma” metaphoric correspondence./nThe results from the Xhosa children were compared to the ones from western culture children and obtained conclusions to be used to apply on all type of designs that would help the Xhosa community to interact better with applications, technology or others, designed using this concepts, making the whole user experience more attractive and pleasant. These results also speak to the cross-cultural generality of some cross-modal correspondences.
Aquest projecte ha estat dirigit en veure les diferencies culturals en percebre/ncorrespondencies crosmodals, com el link mental que sovint existeix entre conceptes/nsensorials com l’altura visual i auditiva (tonal). Hem estudiat nens occidentals i de la/ntribu Xhosa (Àfrica Del Sud). L’objectiu és probar d’entendre els aspectes culturals de/nles correspondencies crosmodals i més important encara per nosaltres, entendre com les/ndiferències culturals poden ser usades per millorar dissenys tecnològics del futur,/ngenerant amb aquestes informacions una cosa similar a un disseny col·laboratiu./nPresentem un un profund estudi de literatura sobre correspondencies crosmodals que/nserveix com a base pels nostres estudis empirics (experiments) que presentem/nposteriorment. Aquests estudis estan basats per una banda en conceptes basics ja/nconeguts i per l’altre en intentar arribar més lluny en aspectes no estudiats anteriorment./nVam crear un protocol experimental adaptat per testejar una serie de correspondencies/ncrosmodals que vam considerar que serien les mes interesants pel nostre objectiu com,/nto auditiu i mida, lluminància, i posició espacial. També vam incloure correspondències/nespecíficament tecnològiques com fer pujar i baixar el contigut d’una pantalla o fer i/ntruere zoom d’una imatge amb els moviments dels dits, finalment, la correspondència/nmetafòrica de “Takete”/”Maluma”./nEls resultats dels nens de la tribu Xhosa es van comparar amb els dels nens occidentals i/nvam obtenir una serie de conclusions usades per aplicar en tot tipus de disenys que/nafavoririen a la comunitat Xhosa a interactuar millor amb aplicacions, tecnologia o/naltres, disenyats usant aquest concepte, fent el total de la experiència d’usuari mes/natractiva i plaent. Aquests resultats també parlen de la generalitat cross-cultural/nd’algunes correspondencies crossmodals
2015-12-10
2015-12-10
2015-12-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25367
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/253852019-10-31T12:10:57Zcom_10230_20650com_10230_16441col_10230_22179
Automatic structure detection and visualization in symphonic music
Cuesta, Helena
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Emilia Gómez, Oscar Mayor
Music is perceived as an organized entity where the information is divided in different parts or segments. People with musical training are able to classify these segments according to their musical content or their instrumentation, and even according to their own knowledge of established musical structures. However, musically untrained audiences may not always get these segmentations easily, especially when the structural complexity of the piece is high. This project studies the effect of how different audio features can be used for audio segmentation, focusing on classical music, in particular symphonic repertoire, which has a complex structure. Two different segmentation techniques are tested: clustering, and similarity and novelty detection. These two methods are explored using two separate approaches and evaluated against manual annotations in the 4th Movement of the 9th Symphony by Beethoven, one of the most well-known pieces of this repertoire, in order to see which of the two works better when defining the structure of the musical piece. Furthermore, the results of the obtained segmentations are displayed in a webbased/ntool in the repoVizz platform, making them more accessible to the audience.
Els humans percebem la música com una entitat organitzada que està dividida en /nparts o segments. Les persones amb coneixements musicals son capaces de classificar aquests segments segons el seu contingut musical o la seva instrumentació, i també d’acord amb el seu coneixement sobre estructures musicals. Per altra banda, les persones que no tenen coneixements musicals no sempre son capaces /nd’extreure aquesta segmentació en una peça musical, sobretot quan es tracta d’una /nestructura complexa./nAquest projecte estudia com diferents característiques de l’àudio poden ser utilitzades per fer aquesta segmentació estructural, centrant-se en música clàssica, en /nparticular, repertori simfònic, ja que consta d’una estructura més complexa. S’implementen dues tècniques de segmentació: l’agrupament de dades i l’anàlisi de /nsimilitud i detecció de contrast. Aquests dos mètodes s’exploren per separat per tal d’avaluar quin dels dos funciona millor a l’hora de definir l’estructura d’una/npeça musical./nFinalment, els resultats de la segmentació es mostren en una eina web a la plataforma repoVizz, per tal de fer-los mes accessibles al públic.
2015-12-11
2015-12-11
2015-12-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25385
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/253872018-01-24T08:14:02Zcom_10230_20650com_10230_16441col_10230_22179
X2S Editor: editor gráfico de music XML para alineamiento de audio a partitura
Fernandez Garcia, Abel Angel
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Julio Carabías y Agustín Martorell
Hoy en día, existen sistemas de alineamiento automático para sincronizar una interpretación musical con su partitura. Estos sistemas pueden clasificarse como offline, si el alineamiento se hace posterior a la interpretación, u online, en caso de que el alineamiento se realice mientras el músico está interpretando. Aunque los sistemas actuales obtienen una buena precisión, todos ellos consideran un umbral de tolerancia, con lo que, en la mayoría de los casos se requiere de una manipulación humana para acabar de refinar el alineamiento. Hasta ahora el musicólogo que perfecciona el resultado tiene que ir ajustando las notas una por una, ejercicio que conlleva una gran cantidad de tiempo. Con X2S Editor se propone una herramienta que combine un alineamiento automático offline y un editor gráfico que permita al musicólogo realizar los ajustes necesarios para refinar el alineamiento de una forma más sencilla y eficiente.
Nowadays, automatic alignment systems are used to synchronise musical performances /nwith their score. These systems can be classified as offline, if the alignment is done /nafter the performance, or online, in the case that the alignment it is carried out while the /nmusician(s) is/are playing./nAlthough, the current systems have good precision/n, they are all limited because of a /ntolerance threshold; therefore in most cases human manipulation is necessary to refine /nthe alignment. Up until now, the musicologist who perfects the result has to adjust the /nscore note by note; it is a job that requires/na great deal of time. /nX2S Editor is a proposed tool that combines an offline automatic alignment and a /ngraphic editor, which allows the musicologist to make the needed changes in order to /nrefine the alignment in more simplistic and efficient way.
2015-12-11
2015-12-11
2015-12-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25387
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/253882018-01-24T08:14:06Zcom_10230_20650com_10230_16441col_10230_22179
Estudio de la definición de visema para un sistema de reconocimiento visual automático del habla
Fernández López, Adriana
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Federico Sukno
Las personas nos comunicamos principalmente mediante el habla, utilizando los recursos auditivos y visuales para interpretarla. El reconocimiento automático del habla se centra principalmente en interpretar las señales de audio, pero en condiciones desfavorables se ha demostrado que el vídeo puede compensar estas condiciones aportando la información oculta en el audio. El estudio del reconocimiento visual automático del habla es todavía un problema abierto en el ámbito científico. Uno de sus problemas principales es la definición de la unidad atómica del vídeo, denominado visema. En este estudio, exploramos diferentes opciones para la definición de un vocabulario de visemas basado en la agrupación de fonemas para la construcción de un sistema de procesado automático visual del habla. El sistema utiliza descriptores SIFT para extraer las características principales de cada fotograma y un modelo oculto de Markov para modelar las restricciones estadísticas de una secuencia de visemas y/o fonemas.
Les persones ens comuniquem principalment per mitjà de la parla, utilitzant els recursos /nauditius i visuals per /ninterpretar/n-/nla/n. El reconeixe/nment automàtic de la parla es basa /nprincipalment en interpretar les senyals d’àudio, però en condicions desfavorables /ns’ha /ndemostrat que el vídeo pot compensar aquestes condicions apor/ntant la informació oculta /nen l’/nàudio. L’estudi del reconeixement visual /nautomàtic de la parla es encara un /nproblema obert en /nl’àmbit/ncientífic. Un dels seus problemes principals es la definició de /nla unitat atòmica del vídeo, l’anomenat visema. En aquest estudi, explorem diferents /nopcions per a la definició d’un vocabulari de /nvisemas basat en l’agrupació de fonemes /nper a la /nconstrucció/nd’un sistema de processat automàtic visual de la parla. El sistema fa /nservir descriptors SIFT per /nextraure/nles característiques principals de cada fotograma i /nun model ocult de Markov per modelar/nles restriccions estadístiques d’una /nseqüència/nde /nvisemas i/o fonemes.
2015-12-11
2015-12-11
2015-12-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25388
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/253892018-01-24T08:13:50Zcom_10230_20650com_10230_16441col_10230_22179
Detector de Beat: l’ordinador capaç de seguir la pulsació
Frigola Bagué, Eduard
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Sergi Jordà, Perfecto Herrera
Últimament la tecnologia ha pres un paper molt important en la música. Degut a això han aparegut moltes línies de recerca en tecnologies musicals que shan centrat en la millora daquesta tecnologia per a dotar-la de facultats humanes que no té, com la capacitat dimprovisar o la capacitat de tocar amb estil. Hi ha molts estudis que es centren en millorar la interacció entre els humans i la música des d’un punt de vista computacional./nNogensmenys encara queda molta feina per poder dotar als ordinadors de les capacitats sensorials d’un humà. Aspectes com la pulsació, no es poden descriure, es senten, aquí és on comença la complexitat i el paper interessant dels ajuts computacionals en la música Aquest projecte tracta d’implementar un detector de beat que pugui treballar a temps real. Per a fer-ho, ens hem basat en un algorisme ja existent que implementa en una xarxa neuronal concreta per a decidir si un instant de temps es tracta d’un beat o no. A partir de gravacions d’àudio anotades, hem utilitzat tècniques de processament i anàlisi de música per a preparar una base de dades i després analitzar-la amb tècniques d’aprenentatge automàtic. El treball que hem desenvolupat es troba implementat dins la llibreria Essentia [2], creada al grup de recerca en tecnologies musicals (MTG) de la/nUniversitat Pompeu Fabra (UPF).
2015-12-11
2015-12-11
2015-12-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25389
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/253992018-01-24T08:32:23Zcom_10230_20650com_10230_16441col_10230_22179
"Lands of Fog": sistema interactiu de cos sencer de gran format per a fomentar la interacció social de nens amb autisme
Galimany Camps, Guillem
Treball de fi de grau en Sistemes Audiovisuals
Aquest treball es basa en el desenvolupament d’un sistema interactiu de cos sencer de gran format. Es tracta d’una instal·lació formada per una múltiple projecció en una superfície de 36 metres quadrats situada al terra i per un sistema de seguiment dels usuaris a través de visió computacional. La instal·lació és un joc multi-usuari per nens amb Transtorn de l’Espectre Autista (TEA) i nens neurotípics. La seva finalitat és promoure la interacció social entre els/njugadors proposant experiències de descoberta dins d’un entorn virtual. El desenvolupament d’aquest sistema s’engloba dins d’un projecte de recerca, finançat pel RecerCaixa, anomenat In-Autis-Tic en el qual participa el grup d’investigació CMTech del DTIC. El sistema ha estat implementat amb Unity, una plataforma de desenvolupament de/nvideojocs, que ha permès desenvolupar el joc, implementar els comportaments i mecàniques definides per a fomentar la interacció social, i afegir efectes visuals i sonors.
Tutors: Joan Mora i Narcís Parés
This work is based on the development of a large format full body interactive system. It/nis an installation composed of a multiple projection in an area of 36 square meters/nlocated on the ground and a system for tracking users using computer vision./nThe installation is a multi-user game for children with Autism Spectrum Disorder/n(ASD) and neurotypical children. Its purpose is to promote social interaction between/nplayers by proposing discovering experiences within a virtual environment./nThe development of this system is included as a part of a research project funded by/nRecerCaixa called In-Autis-Tic in which takes part the research group CMTech of/nDTIC./nThe system has been implemented with Unity, a game development platform that has/nallowed the development of the game, the implementation of the mechanics and/nbehaviors defined to encourage social interaction, and adding visual and sound effects.
2015-12-14
2015-12-14
2015-12-14
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25399
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254022018-01-24T08:32:19Zcom_10230_20650com_10230_16441col_10230_22179
TimeTableUPF: Desenvolupament del pla de negoci de l'APP
Lluch Grané, Bernat
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Jordi Bosch García
Aquest projecte de final de carrera té com a objectiu desenvolupar el pla de negoci d’una aplicació mòbil orientada a l’estudiant de l’ESUP. Sota el nom de TTUPF (Time Table UPF), l’aplicació té l’objectiu de facilitar la vida de l’estudiant, permetentli consultar els seus horaris de manera més ràpida i senzilla. Aquest projecte per tant es centra en el pla de negoci, tot i que inclou una descripció de la tecnologia necessària per a desenvolupar l’aplicació. El pla de negoci inclou una explicació del model de negoci, un estudi de mercat i d’investigació, un pla de màrqueting, i la previsió financera del negoci. També un anàlisi de l’entorn i del sector, així com el pla d’operacions i l’organització. El projecte inclou a més un estudi de riscos i d’estratègies de creixement i desenvolupament de l’aplicació. Per tant aquest document és un estudi on s’avalua l’oportunitat de negoci, tenint en compte tots els elements rellevants.
This final project aims to develop the business plan of a mobile application /noriented to the ESUP student. Under the name of TTUPF (Time Table UPF), the /napplication aims to facilitate the life of the student,/nallowing him to check their /nschedules more quickly and easily./nThis project therefore focuses on the business plan, even though it includes a /nshort description of the technology needed to develop the application. The business plan /nincludes an explanation/nof the business model, a market study and research, marketing /nplan and the financial forecasts of the business. Also includes an analysis of the /nenvironment and the sector as well as the plan of operations and the organization. The /nproject includes a stud/ny of the risks and strategies for growth and development of the /napplication./nTherefore this paper is a study evaluating the business opportunity, taking into account /nall relevant elements
2015-12-14
2015-12-14
2015-12-14
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25402
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254042018-01-24T08:14:29Zcom_10230_20650com_10230_16441col_10230_22179
El impacto emocional de la música en el contenido audiovisual
López Castaño, María
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Rafael Ramírez, Sergio Giraldo
Los estímulos audiovisuales tienen la capacidad de influir en el estado emocional de las personas puesto que abarcan dos campos sensitivos. La correcta relación entre los estímulos auditivos y visuales pretende crear una reacción emocional en el espectador creando así un acercamiento entre éste y el contenido audiovisual. Este estudio de investigación tiene el objetivo de analizar dicha relación mediante la realización de un experimento. En él, se examina la actividad cerebral (electroencefalografía) de un sujeto durante la visualización de un conjunto de videos los cuales alternan escenas y sonidos de diferentes emociones. Posteriormente se utilizan técnicas de aprendizaje automático para clasificar los datos. Para ello, se ha requerido un estudio previo con el fin de comprender las emociones y entender el campo de la neurociencia, así como los equipos y software a utilizar y los diferentes algoritmos para clasificar los resultados. En esta tesis se ha podido observar como cada persona recibe un impacto distinto para un mismo tipo de escenarios. Se ha comprobado que la música sí que interfiere en la relación con las emociones y puede hacer que este impacto se vea alterado. Sin embargo, se necesitaría realizar un estudio más exhaustivo con el fin de poder llegar a una conclusión genérica. Además, en el análisis de las clases, se ha podido ver como las diversas clases tienen características bastante diferentes y esto hace que sean más separables entre ellas.
Audiovisual stimuli have the ability to influence the emotional state of people /nsince they /ninclude two sensitive fields. The correct relationship between auditory and visual stimuli /nintends to create an emotional response in the viewer creating an approach between it and /nthe audiovisual content./nThis research study aims to analyze thi/ns relationship by conducting an experiment. In it, /nthe brain activity (EEG) of a subject is examined during the visualization of a set of videos /nwhich alternate scenes and sounds of different emotions. Subsequently/n,/nmachine learning /ntechniques are used to /nclassify the data. To achieve this, it has been necessary to complete /na preliminary study in order to understand the emotions and to gain more knowledge of /nthe field of neuroscience, just as the equipment and software have been used to rank the /nresults of /nthe different algorithms./nThis thesis has been observed as each person gets a different impact for the same type of /nscenarios. It has been verified that music itself interferes in the relationship with emotions /nand this impact can be altered. However, it w/nould be needed to perform a more exhaustive /nstudy in order to reach a generic conclusion. Furthermore, in the class analysis, it was /npossible to see how the different/nclasses have quite different properties and this makes /nthem separable from them.
2015-12-14
2015-12-14
2015-12-14
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25404
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254052018-01-24T08:15:05Zcom_10230_20650com_10230_16441col_10230_22179
Scattering transform for breast cancer detection
López Tenza, Aina
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Gemma Piella Fenoy
This project investigates the feasibility of using the scattering transform for breast cancer detection from mammograms. The Scattering Transform is a recently introduced descriptor that follows the scheme of a neural network, whose filters are wavelets followed by a modulus operator. We built a classification scheme that involves a feature extraction and a classification stages. For the first stage, we have used the Scattering Transform for extracting discriminant features robust to small deformations in the image. Moreover, we have also used another descriptor as a reference, the Scale-Invariant Feature Transform, widely used in classification problem. For the second stage, we have trained two models, a generative (based on affine spaces) and a discriminative (based on support vector machines). We tested our pattern recognition system on 1590 mammograms (964 normal cases,/n425 cancer cases and 201 benign cases), achieving more than 90% of accuracy. These results confirm that the Scattering Transform is a powerful tool to describe mammograms.
Aquest projecte investiga la factibilitat d’utilitzar la transformada scattering en /nproblemes de detecció de càncer de mama mitjançant l’ús de mamografies. /nLa transformada scattering és un nou descriptor/nque segueix l’esquema d’una xarxa /nneuronal on els filtres són /nwavelets/nseguides d’un operador de mòdul. /nHem construït un esquema de classificació format per una etapa d’extracció de /ncaracterístiques i una altra de classificació. Per la primera etapa, hem utilitzat la /ntransformada scattering per extreure característiques discriminants robustes a petites /ndeformacions de la imatge. A més, també hem utilitzat un altre descriptor comú en /nproblemes de classificació, el /nScale-Invariant Feature Transform, que ens ha servit com /na referència. Per la segona etapa, hem entrenat dos models,/nun generatiu (basat en espais /na/nfins) i un altre /ndiscriminatiu (/nbasat en màquines de suport /nvectorial). /nHem testejat el nostre sistema de reconeixement de patrons amb 1590 mamografies /n(694 casos normals, 425 casos cancerígens i 201 casos benignes) i hem obtingut /nmés /nd’un 90% d’encert. /nAquests resultats confirmen/nque /nla transformada scattering és una /nbona eina per descriure mamografies.
2015-12-14
2015-12-14
2015-12-14
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25405
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254072018-01-24T08:14:32Zcom_10230_20650com_10230_16441col_10230_22179
Plan de Negocio de Gamerized
Luque Garcia, Eduard
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Jordi Bosch
En este trabajo de final de grado se ha realizado el desarrollo del plan de negocio de Gamerized, una aplicación para teléfonos móviles inteligentes que aprovecha la tecnología de geolocalización para ofrecer un sistema de intercambio, préstamo, alquiler y compraventa de videojuegos y videoconsolas entre usuarios. El objetivo del trabajo consiste en poner en práctica los conocimientos técnicos y de gestión de proyectos para estudiar la viabilidad de una nueva empresa en el sector de las tecnologías de la información y la comunicación. De esta forma, por un lado se observan aspectos como el análisis de márquetin, el plan financiero, las operaciones, la organización de la empresa, la gestión de riesgos, el estudio del entorno y las estrategias de crecimiento. Y por otro lado, se detallan las especificaciones técnicas sobre el desarrollo teórico y el mantenimiento de la aplicación.
In this final degree’s work,/nit has been performed the development of /nGamerized’s business plan/n, an app/nfor smartphones which gets use of the geolocation /ntechnology to offer a system of trading, lending, renting, buying and selling videogames /nand consoles between users./nThe main point of this work is to put into practice the knowledge/nin /nproject /nmanagement,/nto study the viability of a new enterprise in the sector of information and /ncommunication technologies (ICT)./nOn the one hand,/nthere are/naspects such as marketing analysis, the financial plan, /noperations and organization/nof the /nenterprise, risk’s management, the study of the /nenvironment and strategies of development. /nAnd on the other hand, /nthere are/ndetailed /nthe technical specifications about the theoretical development and maintenance of the app.
2015-12-14
2015-12-14
2015-12-14
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25407
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254092018-01-24T08:14:42Zcom_10230_20650com_10230_16441col_10230_22179
Estudio de neuromarketing sobre cómo la música afecta las decisiones de compra del consumidor
Morral Teixé, Andrea
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Rafael Ramírez-Meléndez
Existen estudios que demuestran que la reproducción de música en establecimientos comerciales puede influir la conducta del consumidor [1] [2]. ¿Depende este hecho del género o tipo de música? La respuesta a esta pregunta se puede investigar empleando técnicas de neuromarketing diseñadas para el estudio de cómo el cerebro humano/nreacciona frente a estímulos de marketing. El objetivo de este estudio es analizar la actividad cerebral que se produce frente a determinados estímulos visuales y auditivos a través de una técnica no invasiva extensamente utilizada en los estudios de este campo: el electroencefalograma (EEG). Los datos obtenidos se filtran y procesan para posteriormente extraer descriptores emocionales que nos indican si el sujeto está excitado o relajado (Arousal) y si esta emoción es positiva o negativa (Valence). A los valores extraídos en esta fase, se les aplicarán algoritmos de aprendizaje automático para determinar la existencia o no de un patrón de conducta con el fin de poder llegar a predecir, en un escenario concreto, la conducta del consumidor y responder así a la pregunta de si la música y su género influyen en nuestras decisiones de compra.
Studies show that playing music in stores can influence consumer behaviour. Does this /nfact depend on the/ngenre or type of music? The answer to this question can be /ninvestigated using neuromarketing techniques designed to study how the human brain /nreacts to marketing stimuli. /nThe aim of this study is to /nanalyse/nthe brain activity that occurs from certain visual and /nauditory stimuli through a /nnon-invasive/ntechnique /nwidely used in studies of this field: /nthe electroenceph/nalogram (EEG). The obtained data is/nfiltered and then processed to /nextract emotional descriptors that indicate whether the subject is excited or relaxed /n(Arousal) and whether this is /na /npositive or /na negative emotion (Valence). To the values /nobtained at this stage, a /nmachine-learning/nalgorithm will be applied/nto determine the /nexistence of a pattern of conduct in order to get to predict,/nin a particular scenario, /nconsumer /nbehaviour/nand so answer the question whether music and genre/ninfluence our /npurchasing decisions.
2015-12-14
2015-12-14
2015-12-14
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25409
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254112018-01-24T08:14:28Zcom_10230_20650com_10230_16441col_10230_22179
Herramienta para la autoría de visualizaciones interactivas de vídeos académicos
Pérez Bautista, Antonio
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Davinia Hernández-Leo i Manel Jiménez Morales
En este trabajo se presenta una aplicación basada en HTML5 y PHP que principalmente dispone de dos herramientas. Por un lado encontramos la herramienta de autoría, normalmente configurada por un educador. Esta herramienta de la aplicación permite cargar un vídeo alojado en YouTube, añadir preguntas multiple choice, que aparecerán en el momento que se indique, añadir recursos mediante links a otras páginas o archivos, indicadores visuales con la finalidad de resaltar un elemento de la aplicación en un momento determinado y además, permite configurar el bloqueo del vídeo hasta que la/npregunta se responda bien. Por otro lado tenemos la herramienta de visualización o player, típicamente utilizada por el alumno. Su función básica es visualizar el contenido con todos los elementos editados e incorporados previamente por el educador. El objetivo final de este proyecto es extender la funcionalidad de visualización de vídeos mediante elementos superpuestos de manera que se mejoren sus posibilidades formativas y la experiencia del alumno, otorgándole al vídeo una interactividad totalmente configurable por educadores.
En aquest treball es presenta un/na aplicació basada en HTML5 i PHP /nque principalment /ndisposa de dos eines. D'una banda trobem l'eina d'autoria, normalment configurada per /nl’educador. Aquesta eina de l'aplicació permet carregar un vídeo allotjat a YouTube, /nafegir preguntes /nmultiple choice,/nque apareixeran en el moment que s'indiqui, afegir /nrecursos mitjançant links a altres pàgines o arxius, indicadors visuals amb la finalitat de /nressaltar un element de l'aplicació en un moment determinat i, a més, permet configurar /nel bloqueig del vídeo fins que la pregunta es respongui bé./nD'altra banda tenim l'eina de visualització o /nplayer/n, típicament utilitzada per l'alumne. La /nseva funció bàsica és visualitzar el contingut amb tots els elements editats i incorporats /nprèviament per l'educador./nL'objectiu final d'aquest projecte és estendre la funcionalitat de visualització de vídeos /nmitjançant elements superposats de manera que es millorin les seves possibilitats /nformatives i l'experiència de l'alumne, atorgant-li al vídeo una interactivitat totalment /nconfigurable per educadors.
This paper introduces an app/nlication based on HTML5 and PHP that it’s mainly/nmade of /ntwo/ntools. On one side you can find the authoring tool, usually configured/nby an educator. /nThis application tool allows you/nto /nload a video that it’s hosted on YouTube/n, /nadd multiple /nchoice questions that will appear at the indicated time/n,/nadd resources via links to other /npages or files/n,/nadd visual indicators, in order to, at a given moment, to highlight a feature /nof the application/nand to/nconfigure the video locking until the question is correctly /nanswered/n./nOn the other hand, you find the visualization tool or player, typically used by the student. /nIts basic function is to display all the edited content and all the previously /nincorporated /nelements by the educator./nThe ultimate goal of this project is to extend the functionality of viewing videos/nby /noverlapping elements, so that the learning possibilities can be highly i/nmproved, as well /nas /nthe student’s experience, giving/nthe video /na fully configurable interactivity /nby /neducators.
2015-12-14
2015-12-14
2015-12-14
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25411
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254122018-01-24T08:14:38Zcom_10230_20650com_10230_16441col_10230_22179
Predicció de la decisió de compra basada en la detecció d’emocions amb EEG i Machine Learning
Prats i Valero, Josa
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Sergio Giraldo Méndez
Ens trobem en un moment de creixent interès cap a les tècniques de neuromàrqueting, les quals permeten descobrir les reaccions inconscients del públic davant estímuls comercials. Nombrosos estudis han analitzat l’activitat cerebral buscant-hi relacions amb el nivell d'atracció provocat per un anunci comercial, o amb l'objectiu de descobrir quines àrees del cervell s'activen davant d’estímuls retinguts en la memòria. No obstant, l'estudi de la percepció de la publicitat audiovisual mitjançant l'electroencefalografia (EEG) no s'ha dut a terme, al nostre entendre, amb l'enfocament dels estats emocionals i el model arousalvalence. L’objectiu principal d’aquest treball és estudiar l’efecte real de la publicitat audiovisual en l’estat emocional instantani dels espectadors, i com aquest últim afecta a la presa de decisions. Per a això, s'ha establert un entorn d’investigació totalment específic que inclou, en primer lloc, la creació d’una base de dades de 43 vídeos etiquetats per la seva intenció emocional. Seguidament, s'ha fet una estimació dels estats emocionals basada en el processament de senyals EEG, utilitzant les ones alpha i beta per a mesurar diversos valors d’arousal i valence. S'han realitzat experiments amb 40 voluntaris que han valorat els vídeos de forma subjectiva segons la seva intenció emocional, el seu efecte emocional real i la intenció de compra que els associen, alhora que el seu senyal cerebral era enregistrat. Les dades obtingudes han estat processades amb eines de Machine Learning per a descobrir si existeix una relació entre el senyal EEG, les respostes dels subjectes i la intenció de compra.
There is currently a growing interest on neuromarketing /ntechniques, which allow discovering the unconscious reactions of the public to commercial stimuli. Several studies have analysed the brain activity searching relationship with the at/ntraction level given a commercial /nadvert, or with the aim to discover which brain areas are activated by stimuli retained in /nmemory./nHowever, the study of audiovisual advertising perception by means of electroencephalography (EEG) has not been conducted, /nto our knowledge, with the approach of emotional states and the arousal-valence model. /nThe main goal of this project is to study the /nreal effect of audiovisual advertising in the instantaneous emotional state of spectators, and /nhow this affects to decision making. For this, a completely specific research framework has /nbeen proposed which includes, first, the creation of a 43-video database labeled by emo/ntional intention. Then, we have done an estimation of the emotional state based on EEG /nsignal processing, using alpha and beta waves to measure different values of arousal and /nvalence. /nExperiments/nhave been performed with 40 volunteers who have rated videos according to their subjective emotional intention, their real emotional effect and the purchase /nintention they associate, while their brain signal was captured. The obtained data has been /nprocessed with Machine Learning tools to find whether a relationship exists between EEG /nsignal, written feedback from the subjects and purchase intention.
2015-12-14
2015-12-14
2015-12-14
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25412
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254152018-01-24T08:14:23Zcom_10230_20650com_10230_16441col_10230_22179
Detección automática de parpadeos en conductores mediante métodos de visión por computador
Pulido Griñón, Sandra
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Federico Sukno
La fatiga al volante ocasiona una disminución de la atención y capacidad de reacción del conductor provocando que se incremente notablemente el riesgo a sufrir un accidente. Por este motivo, el desarrollo de sistemas que miden automáticamente la fatiga y en caso de peligro alertan al conductor, se encuentra en auge. La monitorización del comportamiento de los parpadeos es uno de los métodos de detección de fatiga más destacados por su precisión, por ser robusto entre individuos y por no interferir en la conducción. En este proyecto proponemos un método de detección automática de parpadeos basado en sistemas de visión por computador y validado en imágenes reales de conducción. Para esto, hemos empleado las herramientas proporcionadas por OpenCV, una de las librerías más populares actualmente en este ámbito
Drivers f/natigue /nproduces/na /nreduction/nof attention and /ncapacity of reaction, caus/ning a huge /nincrement in the risk /nof/nsuffering /na traffic accident. Because of this, /ndevelopment of /nsystems/nthat automatically measure fatigue and, in case of risk, send a warning to th/ne /ndriver, has recently received considerable attention/n. /nMonitoring blinking patterns is one of /nthe most important methods in fatigue /ndetection due to its precision and /nrobustness/namong /nusers,/ntogether with the fact that it does not interferes with the driving task./nIn this project, we propose an automatic blink detection method/n, based on computer vision /nsystems, /nthat is/nvalidated on videos acquired in a real driving scenario./nTo do this, we ha/nve /nused the tools /nprovided by/nOpenCV, one of the most /npopular/nli/nbraries in this field.
2015-12-14
2015-12-14
2015-12-14
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25415
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254292018-01-24T08:14:24Zcom_10230_20650com_10230_16441col_10230_22179
Estudio del impacto acústico de conciertos amplificados al aire libre en Barcelona
Rubio Infante, Arturo
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Enric Guaus Termens
Este trabajo tiene como finalidad realizar el estudio del impacto acústico que generan los conciertos amplificados al aire libre y en zonas urbanas habitadas. Se pretende estudiar los niveles de presión sonora emitidos por los altavoces de un concierto, en un espacio abierto y con edificios alrededor, y modelar la propagación acústica hacia las viviendas más cercanas de dicho concierto. El estudio se fundamenta en cientos de mediciones ‘in situ’ de conciertos que han tenido lugar en la ciudad de Barcelona (45 plazas y 21 calles). Estas mediciones han sido realizadas por la empresa de ingeniería acústica Audiotec. Una vez procesados todos los datos, se han obtenido varios modelos que explican la propagación del sonido, cada uno con distintas variables según las características de la zona del concierto. La metodología utilizada para realizar el modelaje del sonido ha sido la regresión lineal múltiple. De este modo se obtiene el valor máximo aproximado en dB(A) que deben emitir los altavoces del concierto para cumplir con la normativa legal vigente de la ciudad. Finalmente los valores obtenidos se/nhan comparado con los reales y se puede concluir que en la mayoría de los casos hay que disminuir una media de unos 13 dB(A) para poder cumplir los límites establecidos por la ordenanza municipal.
This project aims to study the acoustic impact generated by amplified outdoor concerts /nin populated urban areas. The work intends to study the sound pressure levels emitted /nby the speakers of a concert in open spaces with buildings around, and model the /nac/noustic propagation at the houses nearest to the concert location. The study is based on /nhundreds of in situ measurements of concerts that have taken place in the city of /nBarcelona/n(/n4/n5/ns/nq/nu/na/nr/ne/ns/na/nn/nd/n2/n1/ns/nt/nr/ne/ne/nt/ns/n)/n. /nT/nh/ne/ns/ne/nmeasurements/nh/na/nv/ne/nb/ne/ne/nn/nm/na/nd/ne/nb/ny/nt/nh/ne/nacoustic/ne/nn/ng/ni/nn/ne/ne/nr/ni/nn/ng/nc/no/nm/np/na/nn/ny/nA/nu/nd/ni/no/nt/ne/nc/n./nAfter processing all the data, we have obtained /nseveral /nm/no/nd/ne/nl/ns/nthat /ne/nx/np/nl/na/ni/nn/nthe propagation of sound, each with different characteristics /nthat vary according to the concert area. Finally, we present an approximate maximum /nvalue of sound emission in dB(A) in order to meet the current legislation of the city./nF/ni/nn/na/nl/nl/ny/nt/nh/ne/nv/na/nl/nu/ne/ns/no/nb/nt/na/ni/nn/ne/nd/nw/ne/nr/ne/nc/no/nm/np/na/nr/ne/nd/nw/ni/nt/nh/nt/nh/ne/nreal/na/nn/nd/nw/ne/nc/na/nn/nc/no/nn/nc/nl/nu/nd/ne/nt/nh/na/nt/ni/nn/nm/no/ns/nt/nc/na/ns/ne/ns/nn/ne/ne/nd/nt/no/nb/ne/nd/ne/nc/nr/ne/na/ns/ne/nd/na/nn/na/nv/ne/nr/na/ng/ne/no/nf/na/nb/no/nu/nt/n1/n3/nd/nB/n(/nA/n)/nt/no/nm/ne/ne/nt/nt/nh/ne/nl/ni/nm/ni/nt/ns/ns/ne/nt/nb/ny/nt/nh/ne/nl/na/nw/n.
2015-12-15
2015-12-15
2015-12-15
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25429
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254302018-01-24T08:14:25Zcom_10230_20650com_10230_16441col_10230_22179
Tocando la guitarra con potenciómetros rotatorios: un nuevo controlador de guitarra diseñado para una persona con capacidades sensomotoras reducidas
Sandoval Codina, Joan
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Zacharias Vamvakousis
Las personas con discapacidades motoras tienen a menudo dificultades para tocar los instrumentos musicales convencionales. Tocando la guitarra con potenciómetros rotatorios (abrev. StrumPot) es un controlador MIDI que emula parcialmente una guitarra, y que está diseñado para una persona que sufre de tetraparesia con síndrome de Brown-Séquard. El controlador se ha construido mediante la modificación del dispositivo del juego "Guitar Hero". Se ha utilizado una placa computadora Arduino con el fin de gestionar todos los datos de todos los sensores y enviar mensajes MIDI. Dos potenciómetros rotatorios acoplados a la guitarra han sido utilizados para el/nseguimiento de la posición 2D de la mano derecha del usuario en frente de la guitarra. Se han colocado seis cuerdas virtuales en la guitarra. Cuando la mano del usuario atraviesa cada una de ellas, un mensaje de ‘note-on’ MIDI es enviado con el número de nota correspondiente. En el cuello de la guitarra, hay un conjunto de botones que ya estaban previamente instalados en el dispositivo de Guitar Hero y que se utilizan para cambiar los acordes. El dispositivo es fácil de usar, de peso ligero y fácil de transportar a cualquier lugar.
People with motor disabilities often have difficulties in playing common musical/ninstruments. Strumming with Stringpots (abbr. StrumPot) is a guitar MIDI controller,/ndesigned for a person that suffers from tetraparesis with Brown-Sequard syndrome. The/ncontroller has been built by modifying the gaming device “Guitar Hero”. An Arduino/nmicrocontroller board is used in order to manage all the data from all the sensors and/nsend MIDI messages. Two string potentiometers mounted on the guitar are used for/ntracking the 2D-position of the right hand of the user in front of the guitar. Six virtual/nstrings are placed on the guitar. When the hand of the user crosses each of them, a midi/nnote-on message is sent with the corresponding note number. On the neck of the guitar/nthe already built in buttons of the Guitar Hero device are used for changing the chords./nThe device is easy to use, low-weight and easy to transport anywhere.
2015-12-15
2015-12-15
2015-12-15
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25430
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254312018-01-24T08:14:27Zcom_10230_20650com_10230_16441col_10230_22179col_10230_22178
Design and implementation of an interactive graphics generation system
Serra Arrizabalaga, Fabià
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Narcís Parés
Treball de fi de grau en Informàtica
In modern dance it is becoming more common to use projected visual imagery to enhance the performance and explore new artistic paths. A challenge is how to generate the images in real-time and integrate them with the movements of the dancer. In this project I have designed and implemented a real-time interactive system with the openFrameworks toolkit that generates computer graphics based on human motions and that can be used in dance performances. Using a Microsoft Kinect depth sensing camera and efficient computer vision algorithms, the system extracts motion data in real-time that is then used as input controls for the graphics generation. The graphics generated include particle systems with different behaviors, abstract representation of the silhouette of the dancers and two dimensional fluids simulation. By means of a user-friendly interface we can adjust the parameters that control the motion capture, change the graphics projected and alter their behavior in real-time. The system has been tested in real dance performances and has fulfilled the requirements that were specified for that user context.
En dansa moderna és cada vegada més comú utilitzar imatges projectades per a/nmillorar la experiència de l’espectacle i explorar nous camins artístics. Un repte/nés com generar aquestes imatges en temps real i integrar-les als moviments del ballarí. En aquest projecte he dissenyat i implementat un sistema interactiu a temps/nreal utilitzant la llibreria openFrameworks que genera gràfics en ordinador a partir/ndel moviment humà i que pot ser utilitzat en espectacles de dansa. Utilitzant el/nsensor Microsoft Kinect i algoritmes eficients de visió artificial, el sistema extreu/ninformació del moviment en temps real que serveix com a control d’entrada per/na la generació dels gràfics. Els gràfics que es poden generar inclouen sistemes de/npartícules amb diferents comportaments, representació abstracta de la silueta dels/nballarins i un simulador de fluids en dos dimensions. A través d’una interfície/ngràfica es poden ajustar els paràmetres que controlen la captura del moviment,/ncanviar els gràfics que es projecten i alterar el seu comportament en temps real./nEl sistema ha estat testejat en situacions reals i ha complert els requeriments que/ns’havien plantejat per aquest context.
2015-12-15
2015-12-15
2015-12-15
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25431
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254322018-01-24T08:14:22Zcom_10230_20650com_10230_16441col_10230_22179
Migració web i millora d’un sistema de recomanació musical per a pacients amb demència
Torrent Freixa, Arnau
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Emília Gómez i Perfecto Herrera
Des de fa uns anys, els investigadors intenten demostrar els beneficis de l’estimulació de la memòria dels afectats d’Alzheimer, i la música s’ha revelat com una de les grans possibilitats a explorar per tal de connectar els pacients amb els seus records. Perquè la/nmusicoteràpia sigui efectiva, però, es requereixen molts esforços manuals per realitzar una llista de reproducció personalitzada per a cada pacient. És per això que l’objectiu d’aquest treball és proporcionar una plataforma web intuïtiva a un sistema de recomanació musical ja existent, proposat pel MTG. Aquesta pretén agrupar en un únic entorn els quatre grans processos: la introducció de les dades, el seu processament, l’entrega del resultat i la valoració de l’usuari, intentant millorar les versions ja existents tant com sigui possible. S’ha posat especial èmfasi en la base de dades, tant en la recol·lecció de metadades i la seva indexació com en la possibilitat que el sistema utilitzi les cançons de la base de dades com a font de les seves recomanacions i disminuir així la dependència d’APIs/nexternes al programa.
Since some years ago, researchers have been trying to prove the benefits of memory/nstimulation in Alzheimer’s patients, and music seems to arise as one of the best ways to/nbring patients’ memories back. But to be effective, musical therapy needs a great effort/nto build a personalized playlist for each patient./nSo the main goal of this work, is to give an intuitive web platform to an existing music/nrecommender system designed at MTG. This platform aims to join the four big/nprocesses in just one place: users’ musical preferences retrieval, data processing, results/ndelivery and users’ feedback. It also tries to improve as much as possible the overall/nrecommender system’s performance./nThe main focus was established over the database, both in recollecting and indexing/nmetadata and the possibility of the system to use database songs as the main source of/nits recommendations thus achieving less external API dependency.
2015-12-15
2015-12-15
2015-12-15
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25432
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254332018-01-24T08:32:18Zcom_10230_20650com_10230_16441col_10230_22179col_10230_22178
Web-based visualisation of MRI cardiac images
Torres Bisbal, Melanie
Treball de fi de grau en Sistemes Audiovisuals
Treball de fi de grau en Enginyeria en Informàtica
Tutors: Alun Evans, Gemma Piella i Oscar Cámara
Recent years have seen an explosion in the popularity and availability of web-based applications that allow direct creation and editing of content (such as documents, photos and video) within the browser. One of the reasons for this popularity is that such tools offer many features that are difficult or impossible to achieve with their offline equivalents, such as collaborative and remote working, easy sharing of content, remote visualisation, annotations, etc. The healthcare sector is not an exception and there is an increasing number of visualisation and image processing platforms starting to port their products towards web-based solutions that allow features such as remote second medical opinions. Nevertheless, most of these advances are still in their infancy and they have not really been translated into a clinical environment. MedInria (http://med.inria.fr/) is a multi-platform medical image processing and visualisation Open-Source software, which does not yet explored the web as a tool for its purpose; yet there is a strong incentive to bring the benefits of web applications to medInria, as it could potentially help doctors with their daily tasks, such as diagnosis, consultation, interventions, etc. The main objective of this project is to create a Web-based visualization based on the medInria software, allowing the sharing of content between remote users, permitting them to give feedback and to discuss 3D multimodal data. The main research challenges that have been tackled in this project include rendering 3D medical meshes in a web context, user interactivity with the medical data (e.g. annotations, joint visualization of images and meshes, etc.) and the connection between the web viewer and the stand-alone medInria application. The developed application has been tested on a pilot case to visualize and interactively process MRI data of the heart as well as to integrate it with electro-anatomical mapping data of the same patient. The application was tested by several healthcare professionals. Very positive feedback and potential improvements for a clinical translation of the developed tool have been gathered in the evaluation process.
En los últimos años ha habido una explosión en la popularidad y disponibilidad de las/naplicaciones basadas en la web que permiten la creación y edición de contenido directo/ny la edición de contenidos (como documentos, fotos, vídeos) en el navegador. Una de/nlas razones de esta popularidad es que estas herramientas ofrecen muchas características/nque son difíciles o imposibles de alcanzar con sus equivalentes sin conexión, como el/ntrabajo colaborativo y remoto, compartir contenido fácilmente, visualización remota,/nanotaciones, etc. El sector de la salud no es una excepción y hay un número creciente de/nplataformas de visualización y procesamiento de imágenes a partir de portar sus/nproductos hacia soluciones basadas en la web. Sin embargo, la mayoría de estos/navances están todavía en una fase muy temprana y realmente no se han implementado/nen un entorno clínico./nMedInria (http://med.inria.fr/) es un software Open-Source multi-plataforma de/nprocesamiento y visualización de imágenes médicas, que todavía no ha explorado la/nweb como una herramienta; sin embargo, hay un fuerte interes para que los beneficios/nde las aplicaciones de la web se utilicen medInria, ya que podría ayudar a los médicos/ncon sus tareas diarias, como el diagnóstico, consulta, intervenciones, etc./nEl objetivo principal de este proyecto es crear una visualización basada en la Web/ntomando como base el software medInria, permitiendo el intercambio de contenidos/nentre usuarios remotos, lo que les puede permitir dar información y discutir datos/nmultimodales 3D. Los principales retos que hemos afrontado en este proyecto incluyen/nrenderizar las mallas médicas 3D en un contexto web, la interacción de los usuarios con/nlos datos médicos (como las anotaciones, visualización simultánea de las imágenes y/nmallas, etc.) y la conexión entre el usuario de la web y la aplicación stand-alone/nmedInria. La aplicación desarrollada ha sido puesta a prueba en un caso piloto para/nvisualizar y procesar de forma interactiva los datos de una resonancia magnética del/ncorazón, así como para integrarlo con los datos de mapas electro-anatómicos del mismo/npaciente. La aplicación fue probada por varios profesionales de la salud. En tal proceso/nde evaluación se recibió un feedback muy positivo y propuestas para potenciales/nmejoras en caso de que esta herramienta se trasladara a un ámbito clínico.
2015-12-15
2015-12-15
2015-12-15
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25433
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254682018-01-24T08:14:24Zcom_10230_20650com_10230_16441col_10230_22179
Gestos inteligentes: reconocimiento de gestos aplicando la tecnología RFID
Tutor Nistal, Sergio
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Raúl Parada i Kamruddin Nur
El objetivo de este proyecto final de carrera es estudiar y tratar de lograr una captura de movimiento ideal usando la tecnología Radio Frequency Idenfitication (RFID), que consiste en la recuperación remota de datos de etiquetas pasivas, usando antenas polarizadas dualmente. Hay varias formas de abordar este objetivo, pero en este trabajo se presentan dos/nsistemas diferentes de captura de gestos sin necesidad de colocar una etiqueta en el usuario. Uno utilizará una estantería inteligente y Support Vector Machine, un conunto de algoritmos de aprendizaje supervisado, y el otro consistirá de una superficie inteligente y un método de cuantificación vectorial llamado K-means. Como parte de la investigación, compararemos y estudiaremos los puntos fuertes y débiles de ambos métodos, teniendo en cuenta los escenarios en los que están implementados. Finalmente, estos gestos serán asociados a diferentes acciones para controlar el reproductor multimedia VLC en tiempo real.
The aim of this final thesis is to research and try to achieve an ideal motion capture using the RFID (Radio Frequency Identification) technology, which consists on the wireless capture of data from passive tags using dual polarized antennas./nThere are many ways to approach this objective, but in this project we present two different systems to capture gestures without having to place a tag on the user. One will use a smart shelf and Support Vector Machine, a set of supervised learning algorithms, and the other one will consist on a smart surface and a vector quantization method called K-means clustering./nAs part of the research, we will compare and discuss the strengths and weaknesses of both methods, considering the different scenarios used to implement them. Finally, these gestures captured will be linked to different actions to control the VLC media player software in real time.
2015-12-18
2015-12-18
2015-12-18
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25468
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254692018-01-24T08:14:26Zcom_10230_20650com_10230_16441col_10230_22179
Concierto de Música Clásica en Realidad Virtual
Verdoodt Carazo, Diego
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Julio José Carabias
Los entornos de realidad virtual reproducen una realidad alternativa y permiten que el usuario pueda experimentar la sensación de pertenecer a esta. En este proyecto nos centramos en el caso concreto de la música clásica con objeto de permitir al usuario revivir la experiencia de un concierto. Para generar esta experiencia virtual se ha usado la plataforma Google Cardboard para dar soporte visual y técnicas de síntesis binaural, para la parte de audio espacial. Sin embargo, la mayoría de las grabaciones de música clásica disponibles se encuentran en formato CD (estéreo) siendo necesario aplicar técnicas de separación de fuentes para poder recrear como fuentes aisladas los diferentes instrumentos dentro de las escena. En este trabajo, se ha usado un enfoque basado en Non-Negative Matrix Factorization (NMF). Esta técnica basada en la descomposición de señales ha demostrado ser muy útil en muchas aplicaciones de procesado de señal musical. Finalmente, el resultado de combinar técnicas de procesado de señal y audio espacial se integra dentro del prototipo de realidad virtual.
Els entorns de realitat virtual reprodueixen una realitat alternativa, i permeten a que/nl’usuari pugui experimentar la sensació de pertànyer a aquesta. En aquest projecte ens/ncentrem en el cas concret de la música clàssica, amb objecte de permetre a l’usuari/nreviure l’experiència d’un concert./nPer a generar aquesta experiència virtual s’ha emprat la plataforma Google Cardboard/nper a donar suport visual i la síntesis binaural, per a la part d’àudio espacial./nNo obstant, la majoria de les gravacions de música clàssica disponibles es troben en/nformat CD (estèreo) sent necessari tècniques de separació de fonts per a poder recrear/nels diferents instruments com a fonts aïllades dins de l’escena. En aquest treball, s’ha fet/nservir un enfoc basat en la Non-Negative Matrix Factorization (NMF). Aquesta tècnica/nbasada en la descomposició de senyals ha demostrat ser molt útil en molts aplicacions/nde processat de senyal musical./nFinalment, el resultat de combinar tècniques de processat de senyal i àudio espacial/ns’integra dins del prototip de realitat virtual.
2015-12-18
2015-12-18
2015-12-18
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25469
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/254702018-01-24T08:14:28Zcom_10230_20650com_10230_16441col_10230_22179
PÀDEL-POINT: Comparteix, apunta’t, juga!
Zapata Portell, Marc
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Jordi Bosch
En el següent document presentem un Treball de final de Grau que fa referència a un pla de negoci. En aquest pretenem veure la viabilitat d’un projecte destinat a la creació d’una aplicació mòbil anomenada Pàdel-Point que ofereix als usuaris la possibilitat d’organitzar partits així com també informar-se i apuntar-se a campionats de pàdel, un dels esports més de moda a Espanya, i que per altra banda té com a objectiu crear una xarxa social destinada exclusivament a aquest meravellós esport. Degut a les peculiaritats de la pràctica del pàdel, que entre d’altres són que és relativament barat i fàcil de començar a practicar-lo, no requereix d’una gran condició física, el poden practicar tot tipus de persones i de qualsevol edat i sexe i que a més està actualment en auge tant a nivell amateur com professional, ha fet que fins fa poc es tractés d’un sector molt atractiu per a inversors i emprenedors, que han creat i continuen creant negocis relacionats amb aquest. És per aquest motiu que actualment s’està començant a saturar el mercat i comença a haver-hi més oferta que demanda. La oportunitat de negoci de Pàdel-Point doncs, està basada en la cada vegada més elevada competència que tenen els clubs i les botigues i les dificultats que això els suposa per a diferenciar-se. A través de la nostra app els oferim la possibilitat de promocionar-se davant dels seus clients potencials, els jugadors de pàdel que a la vegada són els nostres usuaris, fet que els permetrà incentivar els seus serveis a través de la nostra aplicació, mitjançant un sistema localització mòbil i segons diferents tarifes a escollir en funció de la zona d’influència que desitgin abastar. Veurem que la competència és elevada i que actualment existeixen d’altres productes que ofereixen per separat serveis similars tant a jugadors usuaris com als nostres clients potencials. Tot i això, hem sabut trobar avantatges competitius respecte d’aquests i després del corresponent estudi de viabilitat econòmica, entre altres, acabem per concloure que tot i les dificultats, el projecte té possibilitats reals de tirar endavant.
En el siguiente documento presentamos un Trabajo de final de Grado que hace referencia a un plano/nde negocio. Con éste pretendemos ver la viabilidad de un proyecto destinado a la creación de una/naplicación móvil llamada Pádel-Point i que ofrece a los usuarios la posibilidad de organizar partidos/nasí como también informarse y apuntarse a campeonatos de pádel, uno de los deportes más de moda/nen España, y que tiene cómo objetivo también crear una red social destinada exclusivamente a éste/nmaravilloso deporte./nDebido a las peculiaridades de la práctica del pádel, que entre otras son que es relativamente barato/ny fácil de empezar a practicar, no requiere de una gran condición física, lo pueden practicar todo/ntipo de personas, de cualquier edad y sexo y que además, está actualmente en auge tanto a nivel/namateur cómo profesional, ha provocado que hasta hace muy poco se tratase de un sector muy/natractivo para inversores y emprendedores, que han creado y continúan creando negocios/nrelacionados con éste. Es por este motivo que actualmente se está empezando a saturar el mercado y/nempieza a haber más oferta que demanda./nLa oportunidad de negocio de Pádel-Point se basa en la cada vez más elevada competencia que/ntienen los clubes y tiendas de pádel y las dificultades que esto les supone para diferenciarse. A/ntravés de nuestra app les ofrecemos la posibilidad de promocionarse delante de sus clientes/npotenciales, los jugadores de pádel que a la vez son nuestros usuarios, cosa que les dará la/noportunidad de incentivar sus servicios a través de nuestra aplicación mediante un sistema de/nlocalización móvil y según diferentes tarifas a escoger en función de la zona de influencia que/ndeseen abarcar./nVeremos que la competencia es elevada y que actualmente existen otros productos que ofrecen por/nseparado servicios similares tanto a jugadores cómo a nuestros clientes potenciales. Por contra,/nhemos sabido encontrar ventajas competitivas respecto a éstos y después del correspondiente/nestudio de viabilidad económica entre otros acabamos por concluir que aún con las dificultades, el/nproyecto tiene posibilidades reales de salir hacia delante.
2015-12-18
2015-12-18
2015-12-18
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25470
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/255052018-01-24T08:15:10Zcom_10230_20650com_10230_16441col_10230_22179col_10230_22178
Modelado estadístico de forma basado en regiones anatómicas para la implantación coclear
Romera Romero, Jordi
Treball de fi de grau en Sistemes Audiovisuals
Treball de fi de grau en Enginyeria en Informàtica
Tutors: Gemma Piella, Mario Ceresa
Los modelos estadísticos de forma son comúnmente utilizados para analizar la variabilidad existente entre estructuras anatómicas similares y su uso esta firmemente establecido como herramienta para la segmentación de imágenes médicas. Sin embargo, utilizar un único modelo para capturar la variabilidad global de estructuras complejas, a veces no es lo más adecuado si se quieren lograr unos buenos resultados durante el proceso de segmentación. Normalmente, la variabilidad anatómica entre estructuras está asociada a la variabilidad de sus regiones fisiológicas. En el presente proyecto, se propone el marco completo de construcción de un modelo estadístico del oído interno para estudiar la variabilidad local de sus regiones fisiológicas. El modelo propuesto, basado en una extensión del Modelo de Distribución de Puntos, se construye para un conjunto de 17 imágenes de alta resolución (24.5 µm) del oído interno. El modelo se evalúa por su habilidad de generalización y especificidad. Los resultados se comparan con los de un modelo global (sin regiones) construido directamente utilizando un Modelo de Distribución de Puntos. Los resultados de la evaluación demuestran que se puede conseguir una mejor precisión de segmentación mediante un modelado por regiones del oído interno.
Statistical shape models are commonly used to analyse the variability between similar/nanatomical structures and their use is firmly established as a tool for segmentation of/nmedical images. However, only using a simple model for capturing the global/nvariability of complex structures, it is sometimes not the most suitable way to achieve/nvaluable results during the segmentation process. Typically, the anatomical variability/nbetween structures is associated to the variability of their physiological regions. In this/nproject, a complete pipeline is proposed for building a statistical shape model to study/nthe local variability of physiological regions of the inner ear. The proposed model,/nwhich is based on an extension of the Point Distribution Model, is build for a training/nset of 17 high-resolution images (24.5 μm) of the inner ear. The model is evaluated/naccording to its generalisation ability and specificity. The results are compared with the/nresults of a global model (without regions) build directly using a Point Distribution/nModel. The evaluation results suggest that better segmentation accuracy can be/nachieved using a regional modelling of the inner ear.
2015-12-22
2015-12-22
2015-12-22
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/25505
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/263022018-12-18T11:39:53Zcom_10230_20650com_10230_16441col_10230_22179
Disseny i implementació d’un Projector Làser Alfanumèric
Rosell Civit, Pau
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Antoni Ivorra Cano
L’objectiu d’aquest projecte és el disseny i la construcció d’un Projector Làser Alfanumèric de baix cost i de petites dimensions./nAquests projectors es caracteritzen per la representació de caràcters en forma de matriu de bits mitjançant un làser, on els caràcters són representats a través d’un sistema d’escaneig. La resolució vertical d’aquesta matriu acostuma a definir-se mitjançant diferents miralls rotatoris amb inclinacions variables (que suposaran les files de la matriu) i la resolució horitzontal utilitzant la modulació del làser (encesa i apagada)./nL’adquisició de dades dels sensors i les diferents instruccions que regulen el sistema s’han implementat amb el mòdul Arduino UNO, controlat per una interfície gràfica desenvolupada en llenguatge Java./nEl document explica detalladament els passos seguits pel desenvolupament del Projector tant del hardware com del software. Una aplicació actual d’aquest projecte són pico-projectors làser utilitzats en alguns dispositius mòbils.
The main goal of this project deals with the design and construction of a low size and /nlow cost /nAlphanumeric/nLaser Projector./nThis kind of projectors can represent some characters using a bit matrix. The matrix is /nbuild by using a /nspecific scan mechanism, where/nthe rows are displayed using a/nrotator /nsystem of mirrors (with different inclination between them) and the columns through a /nlaser modulation (on/off switch). /nArduino UNO platform is used in order to implement /nthe /nsensor /nof/ndata acquisition and /nuser commands. In addition/n,/nan interface written with Java opens the com/nm/nunication to /nArduino and sends the user instructions. /nThis document /nexplains in detail the steps to develop the Projector, both /nhardware and /nsoftware/n. /nA curren/nt application of this project /nis the laser pico/n-/nprojectors used in /nsome /nmobile devices.
2016-05-19
2016-05-19
2016-05-19
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/26302
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 Spain
oai:repositori.upf.edu:10230/308062018-01-24T08:04:13Zcom_10230_20650com_10230_16441col_10230_22179
Disseny i implementació d'un plug-in analitzador de plug-ins de processat d'àudio C++
Arañó Camprodon, Raimon
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Enric Giné
Un plug-in és un processador/efecte de so que es pot introduir dins un canal virtual en un software de creació i edició d'àudio (Pro Tools, Cubase, Ableton Live,...). Cada cop és més fàcil, per a qualsevol que tingui un ordinador, l'accés a eines que abans només es podien trobar en entorns professionals. La creació i gravació de música s'ha democratitzat de tal manera que qui vulgui pot gravar una cançó amb poc més que un micròfon i una targeta de so. Amb tants processadors d'àudio al nostre abast, cada un amb les seves característiques particulars, és fàcil perdre la noció del que estem introduint a la pista original del baix, de les guitarres, d'una veu, o de qualsevol element sonor o musical. L'eina que es desenvolupa pretén mostrar a l'usuari què és el que realment està fent un plug-in (o cadena de plug-ins) a un senyal particular, de manera que pugui comprendre millor el que està escoltant al mateix moment.
Es desenvolupa un plug-in genèric, que funciona sobre la majoria dels softwares comercials, sobre un framework de programació en C++ anomenant JUCE. L'eina té diferents components on es pot veure de manera gràfica i directa el canvi resultant del processament introduït en temps real. El plug-in incorpora eines com ara un analitzador d'espectre, un visualitzador del canvi en magnitud i fase del senyal o un visualitzador del canvi de nivell i de la informació estèreo. A més, algunes de les variables podran ser modificades per l'usuari per veure amb més precisió tot el que està canviant.
could only be found in professional environments. The creation and production of sound
has become more affordable and anybody can produce now an entire record with the
only help of an audio interface and a microphone. With this amount of plug-ins
available, everyone with its unique behaviour, it’s often easy to get lost in what we are
really introducing to our original bass track, our lead voice, the guitars and any sound
element in our production.
The tool that has been made stands as a global visualizer of the differences that a
particular plug-ins chain has introduced to the original track, so the user can see and
hear in real time what the processors are doing.
A generic plug-in has been developed using the JUCE framework, a pack of generic
bases for audio plug-ins in C++ language. The plug-in includes several tools; a
spectrum analyser, a displayer showing the magnitude and phase differences, a
waveform display with augmented functionalities and also a stereo field inspector.
Some of the variables that the program uses can be modified by the user in order to see
more precisely all the information.
2017-04-10
2017-04-10
2017-04-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30806
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308072018-01-24T08:04:40Zcom_10230_20650com_10230_16441col_10230_22179
Loudness standards in broadcasting. Case study of EBU R-128 implementation at SWR
Carbonell Tena Damià
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Enric Giné Guix
During the 90s and the first decade of the 2000s the loudness levels of popular music increased drastically as no real loudness standard was used for mixing and mastering. The same happened in the broadcasting industry where constant loudness level changes between programs or channels annoyed the consumers. Different organizations around the world decided to stop this phenomena by creating standards like ATSC A/85 (USA, Canada) or EBU R128 (Europe). A public German broadcaster, the SWR (Südwestrundfunk), in which I had the opportunity to do my praxis semester, has already implemented the EBU R128, and it is currently fully functional. I studied and explained the European standardizations in order to increase the awareness about the topic and to provide useful information for their fully understanding. In this work I explain how the implementation was done at SWR, along with the insights from the engineers who work there, providing a review with useful information for other broadcasters.
Durant la època dels 90 i la primera dècada dels 2000, el nivell de loudness de la musica pop va augmentar dràsticament ja que en aquella època no es feia servir cap estàndard de loudness a l’hora de mesclar o masteritzar. El mateix va passar a la industria de les telecomunicacions, on els canvis constants de nivell de loudness entre canals o programes molestaven als consumidors. Diverses organitzacions d’arreu del món van decidir acabar amb aquest fenomen creant estàndards com la ATSC A/85 (EEUU, Canada) o la EBU R128 (Europa). Un canal públic alemany, la SWR (Südwestrundfunk), on vaig tenir la oportunitat de fer el meu semestre de pràctiques, ja ha implementat la EBU R128 i actualment està en complet funcionament. He estudiat i explicat les estandarditzacions europees per augmentar la coneixença d’aquest tema i per a proveir informació útil per la seva plena comprensió. En aquest treball explico com es va realitzar la implementació a la SWR, conjuntament amb el parer dels enginyers que hi treballen, proveïen així informació rellevant per a altres televisions.
2017-04-10
2017-04-10
2017-04-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30807
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308082018-01-24T08:06:25Zcom_10230_20650com_10230_16441col_10230_22179
Pla de negoci de Visit & Beacon La guia turística intel.ligent
Costas Castilla, Guillem
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Jordi Bosch
Qui no té una guia turística agafant pols en algun racó de casa? Fa uns quants anys, si volies aprofitar el temps per veure el major nombre de localitzacions al visitar una ciutat nova te n’havies de comprar una. Tot això va canviar amb l’aparició del telèfon intel·ligent i les apps turístiques. Deixant de banda els avantatges amb pes, comoditat i rapidesa; aquest tipus d’aplicacions no satisfeien els principals requeriments als que els usuaris actuals estan acostumats. Visit & Beacon neix per superar aquestes restriccions. Els itineraris personalitzats per la ciutat i l’ús de beacons per la geolocalització del dispositiu de manera que no malgastis dades en un país estranger són els dos pilars en els que es basa l’aplicació. En aquest document trobareu el pla de negoci en el qual analitzarem la viabilitat de crear una possible empresa que giri entorn a l’aplicació. Estudiarem aspectes com el mercat al que s’encara l’aplicació, l’atracció del sector, el màrqueting tàctic i estratègic, la cadena de valor, els processos clau i també analitzarem la viabilitat econòmica entre d’altres.
Who among us does not have a tourist guide gathering dust somewhere in their house?
Some years ago, if you wanted to max out your time in a foreign city, you had to buy one.
All this changed with the appearance of the smartphone, along with apps aimed at tourists.
Putting aside advantages such as weight, commodity and ease of use; these kinds of
application do not satisfy the main issues users are accustomed to nowadays. Visit &
Beacon was born to overcome these restrictions. Personalized routes and the use of
beacons to geolocalize the device in such a way that you do not need to connect to the
Internet in a foreign country wasting mobile data are the two main pillars on which the
application is based.
In this document you will find the business plan in which we will analyse the viability of
creating a company that revolves around the application. We will study aspects such as the
market for the app, the appeal of the sector, the marketing plan, value chain, key processes
and also analyse the economic viability among others.
2017-04-10
2017-04-10
2017-04-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30808
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308092018-01-24T08:04:39Zcom_10230_20650com_10230_16441col_10230_22179
Alfred tu asistente domótico
Diéguez Llaràs, Cristina
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Luís Sanabria-Russo
La finalidad de este trabajo de investigación es diseñar un modelo de negocio y elaborar un prototipo para mejorar el uso y disfrute de las viviendas a un precio asequible. Actualmente, la domótica avanzada, que nos aporta una mayor comodidad, se asocia a precios desorbitados. Con el avance de las tecnologías es posible reducirlos y hacer de la domótica una tecnología más accesible. Alfred es un sistema domótico que hace uso de una aplicación y una web,
capaz de controlar un domicilio incluso desde la distancia. No solamente funciona cuando lo indica el usuario, sino que también incorpora ciertos elementos de automatización. Además sirve como herramienta sostenible para
localizar los brotes donde hay un consumo excesivo, facilitando así también el ahorro al cliente.
The aim of this research work is to design a business model and elaborate a
prototype for improving the use and enjoyment of homes at an affordable
price.
At present, advanced home automation, which gives us great confort, is
associated with high prices. With the advances in technologies it is possible to
reduce them and make home automation an accessible technology.
Alfred is a home automation system that makes use of an application and a
web, capable of controlling a home even from distance. It not only works
under user commands, but also incorporates automation elements. As well, it
is environmentally aware, capable of locating outbreaks of excessive
consumption, facilitating cost savings.
2017-04-10
2017-04-10
2017-04-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30809
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308102018-01-24T08:04:40Zcom_10230_20650com_10230_16441col_10230_22179
De la teoría a la práctica en la optimización de sistemas de sonido: El analizador RiTA
Ferrer Balagué, Josep
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Enric Guaus Termens i German Ramos Peinado
¿Se puede optimizar un sistema de sonido sin prácticamente hacer ruido? Esta es la pregunta de investigación sobre la que versa este trabajo. En él, se repasan los conceptos teóricos del análisis y el procesamiento de la señal conjuntamente con distintas técnicas de obtención de la respuesta al impulso de un sistema completo para proponer un nuevo analizador, el RiTA. En el contexto de la sonorización de un gran evento, la experiencia demuestra que un analizador, por si solo, es incapaz de corregir las deficiencias del sistema de sonido. Los datos deben ser leídos e interpretados para proponer soluciones a través de técnicas de procesado de la señal. De ahí que la combinación entre las técnicas de análisis y las técnicas de procesamiento son la clave. El conocimiento científico y la experiencia profesional propia permiten recorrer el
camino que va desde la teoría a la implementación práctica para desarrollar un analizador útil, tanto para el campo docente como para el entorno de la especialización.
Could it be possible to optimize a sound system without generating almost any noise?
This is the key question of the present research work. Here, a review of the theoretical
concepts of analysis and signal processing techniques, together with different ways to
obtain the impulse response of a complete audio system, are carried out with the
objective of proposing a new analyser tool: RiTA
In the context of setting-up a sound system for a big event, the experience shows that a
sound analyser by itself is not able to adjust the sound, requiring a correct posterior
analysis and interpretation of the acquired data, and its combination with the proper
signal processing techniques.
The scientific knowledge and the professional experience of the author, allows going
from the theory to the practical implementation with the aim of developing a useful
analyzer, for both, educational and engineering uses.
2017-04-10
2017-04-10
2017-04-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30810
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308112018-01-24T08:04:39Zcom_10230_20650com_10230_16441col_10230_22179
The future of robot assistants: Building a hands-free voice-controlled quadcopter
Frau Amar, Pedro
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Emilia Gómez Gutiérrez
The development and applications of drones has increased over the last few years. Their uses are extensive and their versatility has no potential limits. The evolution of those unmanned aerial vehicles causes a concern for the future. Although people are currently using them for entertainment, new functionalities can be found. In this project we are particularly interested in their potential to assist people with physical disabilities, we propose then to transform the drone into a hands-free device using voice control. We show potential applications for this solution and the challenges it involves. We build a 1 kg quadcopter, let the user control it using her/his voice, and incorporate a voice synthesizer to communicate the user relevant information and make it more human-friendly. The project is framed on an increasing evolution of intelligent systems and robotics.
El desarrollo y aplicaciones de los drones ha incrementado estos últimos años. Sus usos son extensos y su versatilidad no tiene límites potenciales. La evolución de estos vehículos aéreos no tripulados crea inquietudes de cara al futuro. Aunque actualmente la gente está usando los drones para su entretenimiento, nuevas funcionalidades pueden ser halladas. En este proyecto nos interesa particularmente su potencial para asistir a personas con discapacidades físicas, por lo que proponemos transformar el dron en un dispositivo manos libres usando control por voz. Para ello nos enfrentamos a una serie de retos tecnológicos que establecerá un rango con diferentes aplicaciones. En el proyecto hemos construido un cuadricóptero de 1 kg, que el usuario puede controlar mediante su voz, e incorporamos un sintetizador de voz para comunicar al usuario información relevante. El proyecto pretende contribuir a la evolución actual de sistemas inteligentes y robótica.
2017-04-10
2017-04-10
2017-04-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30811
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308122018-01-24T08:05:52Zcom_10230_20650com_10230_16441col_10230_22179
Object-based cross-modal enhancement in sound localization
Garcia Vernet, Laia
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Salvador Soto
Mixing sounds could sometimes be a really challenging task in audio engineering. The difficulty falls on locating different kinds of sounds in auditory space while using only the auditory sense. In this project, we demonstrated that semantically (yet spatially uninformative) congruent images facilitated the localization of sound sources in an
auditory space. For example, finding a sound of a piano was faster when participants looked at an image of a piano. On the other hand, participants were slower when the images were incongruent or unrelated to the target sound object. These results suggest that congruent images cross-modally enhance sound localization performance.
Therefore, our demonstration supports previous findings on object-based cross-modal interactions. The next step is to prove that the effect is also achieved when participants listen to music instead of common sounds of different objects. This demonstration could give us a powerful tool in terms of mixing music, making it challenging than it currently is.
En ingeniería de audio, mezclar sonidos no es una tarea fácil. La dificultad recae en
localizar diferentes tipos de sonido en un espacio sonoro haciendo uso sólo del sentido
auditivo. Mediante una tarea de localización sonora, hemos demostrado que imágenes
que son congruentes y no dan información espacial facilitan la búsqueda auditiva entre
diferentes fuentes de sonido. Por ejemplo, localizar el sonido de un piano era un proceso
más rápido cuando los participantes observaban la imagen de un piano. Contrariamente,
los participantes resultaron ser más lentos cuando las pistas visuales eran incongruentes
o no estaban relacionadas con los eventos sonoros. Los resultados obtenidos sugieren
que, al presentar imágenes congruentes con el sonido que se quiere localizar, se produce
una mejora en la tarea de localización sonora debido a la interacción entre dos sentidos.
El siguiente paso es demostrar que el efecto obtenido también se puede producir cuando
los eventos sonoros son melodías en lugar de sonidos de objetos comunes. Dicha
demostración supondría una herramienta con un gran potencial para la mezcla de
música, ya que reduciría la dificultad que ésta supone.
2017-04-10
2017-04-10
2017-04-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30812
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308132018-01-24T08:04:15Zcom_10230_20650com_10230_16441col_10230_22179
Adequació acústica de la sala principal del Teatre-Auditori Sant Cugat
Hernández Altafaja, Daniel
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Enric Guaus Termens
2017-04-10
2017-04-10
2017-04-10
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30813
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308272018-01-24T08:11:49Zcom_10230_20650com_10230_16441col_10230_22179
Facial shape estimation methods for computing physiological signals with non-invasive techniques
Mallol Ragolta, Adrià
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Federico M. Sukno
For the last few years, there has been an increasing interest in the estimation of physiological data in the context of human behavior understanding and human computer interaction with many different applications such as the automatic recognition of either the physical or the emotional state of a person, or telehealth, among others. Nowadays, however, an important drawback is that these signals can only be measured by means of invasive techniques such as electrodes or pulse oximeters. In this project we address estimation of physiological data by means of indirect, non-invasive measurements. Specifically, we focus on the estimation of the heart rate by amplifying the subtle color variations that appear in the facial skin due to the blood stream pulse. Hence, we develop a fully automatic scheme based on landmark localization in order to segment the facial skin region where to extract the signals that are processed and analyzed with the purpose to estimate the heart rate. Evaluation of the proposed scheme is provided in quantitative terms with respect to ground truth obtained by means of invasive measurements. To this end, we have gathered a small multimodal database comprising highresolution facial videos and ECG recordings from specialized equipment. The main conclusion of this project is the severe difficulty in the measurement of the heart rate from dynamic videos, in which head rotations in both 2D and 3D appear. However, the proposed scheme was able to accurately estimate the heart rate in static videos: in experiments on eventy-eight videos from thirteen subjects we obtained a median error of 2.64 beats per minute, which is comparable to the state of the art.
En els darrers anys, s’ha produït un interès creixent en l’estimació de senyals
fisiològics sota el paradigma de la comprensió del comportament
humà i de la interacció persona-ordinador amb múltiples aplicacions tals
com el reconeixement automàtic de l’estat, tant físic com emocional, d’una
persona, o la telemedicina, entre d’altres. Actualment, però, una de
les limitacions més importants és que aquests senyals només es poden
mesurar a través de tècniques invasives com són els electrodes o els pulsioxíımetres.
En aquest projecte ens centrarem en l’estimació de senyals fisiològics a
través de mesures indirectes i no-invasives. Concretament, ens centrarem
en l’estimació del ritme cardíac a través de l’amplificació de les variacions
subtils de color que es produeixen a la regió cutània de la cara. Amb
aquesta finalitat, hem desenvolupat un paradigma totalment automàtic basat
en la localització de punts caracteríıstics per tal de segmentar la regió
cutània de la cara de la qual n’extreurem els senyals que seran processats
i analitzats amb l’objectiu d’estimar el ritme cardíac.
El paradigma proposat s’avalua quantitativament respecte dades reals obtingudes
a través de mesures invasives. Amb aquest propòsit, hem compilat
una petita base de dades multimodal, la qual conté videos facials a
alta resolució i electrocardiogrames enregistrats amb equipament especialitzat.
La conclusió principal que es pot extreure d’aquest projecte és la dificultat
de mesurar la freqüència cardíaca a partir de vídeos dinàmics, en els quals
la posició del cap dels subjectes canvia tot descrivint rotacions en 2D i en
3D. Això no obstant, el paradigma proposat ha sigut capaç d’estimar amb
precisió el ritme cardíac en vídeos estàtics: en experiments realitzats en
setanta-vuit vídeos de tretze subjectes diferents, vam obtenir un error de
2,64 batecs per minut de mediana, el qual és comparable amb l’estat de
l’art.
2017-04-18
2017-04-18
2017-04-18
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30827
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308282018-01-24T08:12:15Zcom_10230_20650com_10230_16441col_10230_22179
Image processing techniques to extract symbolic features from Atari video games
Moreno Ferrando, Héctor
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Vicenç Gómez, Gloria Haro i Anders Jonsson
Engineers at the University of Alberta have developed a framework called Arcade Learning
Environment (ALE), which allows computers to play Atari videogames based on the
generation of random agents and a reward system. This software provides, at each time
step, information of the game’s RAM, as well as a matrix of pixels that represents the image
of the screen. The main goal of this project is to write a program that applies several image
processing techniques in order to extract symbolic features from those images. These
techniques, implemented in MATLAB, include finding the image’s SIFT keypoints and
matching them between consecutive frames, segmenting the frame into connected
components and obtaining crucial information about each one of them in order to classify
the objects as movable or static, and tracking the objects’ movements around the screen, in
order to estimate an interpolation of their trajectory over time.
Enginyers de la Universitat d’Alberta han desenvolupat un programa anomenat Arcade
Learning Environment (ALE), que permet als ordinadors jugar a videojocs Atari basant-se
en la generació d’agents aleatoris i un sistema de recompenses. Aquest programa
proporciona, a cada instant de temps, informació sobre la RAM del joc, així com una matriu
de píxels que representa la imatge de la pantalla. L’objectiu principal d’aquest projecte és
escriure un programa que apliqui diverses tècniques de processament d’imatge per tal
d’extreure característiques simbòliques d’aquestes imatges. Aquestes tècniques,
implementades en MATLAB, inclouen trobar els keypoints SIFT de les imatges i les
correspondències entre fotogrames consecutius, segmentar la imatge en components
connexes i obtenir informació clau de cada una d’elles per tal de classificar cada objecte
segons si és estàtic o mòbil, i rastrejar els seus moviments per la pantalla per tal d’estimar
una interpolació de la seva trajectòria al llarg del temps.
2017-04-18
2017-04-18
2017-04-18
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30828
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308292018-01-24T08:12:15Zcom_10230_20650com_10230_16441col_10230_22179
Creating a tool for visualization and analysis of moving objects
Moseguí Saladié, Alexa
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Coloma Ballester i Gloria Haro
In recent years, we have witnessed a significant increase in the use of technologies related to video manipulation. Thus, the analysis and automatic interpretation of a dynamic three-dimensional scene from a single video has become a primary objective within the computer vision community both for its scientific interest and its multitude of technological and social applications. Researchers need a powerful, but user-friendly, application to visualize and analyse their results, such as, tracking people or vehicles, detection of situations, automatic detection of objects, and so on.
This project develops a tool for visualizing these results in a 3D environment and checking the accuracy of the detection and tracking. Using a wide range of computer vision techniques, the video scene will be projected as a set of spatiotemporal tubes in 3D where the user will be able to interact with them and edit some features. The aim of this application is to ease the visualization of the video scene from all the possible angles and points of view.
En els últims anys, hem assistit a un increment important en l’ús de les tecnologies relacionades amb la manipulació de vídeo. Així doncs, el anàlisis i la interpretació automàtica d’una escena dinàmica tridimensional a partir d’un sol vídeo s’ha convertit en un objectiu primordial dins la comunitat de visió per ordinador, tan pel seu interès científic com per les moltes aplicacions tecnològiques-socials. Els investigadors necessiten una aplicació potent, però a la vegada intuïtiva, per visualitzar i analitzar els seus resultats provinents del seguiment de persones o vehicles, de deteccions de situacions, de deteccions automàtiques d’objectes, entre d’altres.
En aquest projecte hem desenvolupat una eina per la visualització en un entorn 3D d’aquests resultats. A més a més, l’usuari també podrà comprovar la precisió obtinguda en les deteccions i el seguiment dels objectes. Utilitzant un ampli ventall de tècniques en visió per ordinador, l’escena del vídeo serà projectada en un conjunt de tubs espacio-temporals 3D on l’usuari podrà interactuar amb l’entorn i editar algunes característiques determinades. Per tant, l’objectiu d’aquesta aplicació és facilitar la visualització d’una escena de vídeo en tots els angles i punts de vista possibles.
2017-04-18
2017-04-18
2017-04-18
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30829
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308302018-01-24T08:13:58Zcom_10230_20650com_10230_16441col_10230_22179
Estudi de viabilitat del desenvolupament d’una alternativa de transport a la ciutat de Barcelona basada en el car-sharing elèctric
Olivares Toro, Adriana
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Jordi Bosch
El car-sharing, cada cop present en més ciutats arreu del món, consisteix en el lloguer de vehicles durant un curt període de temps. Aquest servei ofereix a l’usuari la possibilitat de gaudir d’un vehicle cada cop que el necessiti, sense haver de fer-se càrrec de les despeses i les complicacions implicades en la possessió d’un vehicle propi.
En aquest Treball de Final de Grau ha estat desenvolupat un pla de negoci per a la implantació d’un servei de car-sharing a la ciutat de Barcelona, amb l’objectiu d’aportar una alternativa flexible i econòmica a la mobilitat i, també, una millora del medi ambient i la qualitat urbana de la ciutat.
En aquest pla de negoci es descriu la idea de negoci, les accions a realitzar, la viabilitat del projecte i les expectatives de futur, generant un document fonamental per a dur a terme la idea i treure-la al mercat.
Nowadays, car-sharing is present in a lot of cities in the world. It consists of a service that allows you to rent a vehicle for a short period of time. This service gives the user the possibility to use a vehicle whenever they want, without the expenses and complications that comes from owning your own vehicle. In this research, a business plan for the implementation of a car-sharing service in the city of Barcelona has been developed, with the aim of creating an economic and flexible alternative mode of transport. While also improving the environmental impact of transport in Barcelona. This business plan describes the business idea, the operations that have to be done, the project viability and the future expectations, creating a fundamental file to initiate the idea and get it into the market.
2017-04-18
2017-04-18
2017-04-18
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30830
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308312018-01-24T08:14:16Zcom_10230_20650com_10230_16441col_10230_22179
Plan de negocio de Gear & Us: la app de consumo colaborativo para músicos
Pérez de Gea, Mario
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Jordi Bosch
Tiempo atrás, los músicos tenían muy poca opción para adquirir instrumentos. Lo más
habitual era dirigirse a tiendas de música en la ciudad más cercana y conformarse con
el stock disponible. Sin embargo, todo cambió cuando algunas tiendas europeas, que
habían empezado como proveedores por catálogo, popularizaron la venta por internet en
este sector. Desde 2008 aproximadamente, estas han sido líderes a la hora de ofrecer al
músico una cantidad interminable de artículos interesantes a precios imbatibles.
Salvo las evidentes ventajas de ahorro y oferta disponible que ofrecen las tiendas online,
son muchos los clientes de estas que declaran haber deseado probar un instrumento
antes de adquirirlo. Asimismo, las tiendas físicas solo suelen pedir los instrumentos si
tienen la certeza de venta asegurada. Esto provoca que, en algunos casos, probar un
instrumento antes de comprarlo no sea tarea fácil.
A raíz de esta necesidad frustrada de muchos músicos y de la creciente tendencia en el
consumo colaborativo, nace la idea de Gear & Us: una aplicación móvil pensada para
mejorar el proceso de compra de instrumentos para el músico actual. Siguiendo el estilo
de aplicaciones de compraventa de segunda mano, nosotros ofrecemos una plataforma
donde los usuarios puedan publicar los instrumentos (o material asociado) que poseen y
ganar dinero dejándoselos probar a todo aquel interesado que viva en la misma zona.
El presente documento contiene el plan de negocio con el que queremos analizar la
viabilidad de crear una empresa alrededor de esta aplicación móvil. En este se analizan
aspectos como la organización de la empresa, el mercado de la aplicación, el sector en
el que se encuentra la empresa, el plan de marketing, la viabilidad económica y
financiera del proyecto y las estrategias de crecimiento para el futuro.
Some time ago, musicians had very few ways to purchase instruments. The most
common one was heading to a local music retail store and resigning themselves to the
available stock. However, everything changed when some European stores which had
started off as catalogue providers popularized internet sales in this sector. Since
approximately 2008 these stores have been leaders on providing musicians an endless
amount of interesting music-related articles at unbeatable prices.
Despite online stores offering clear advantages such as allowing their clients to save
money and having more stock available, many of their customers state they would have
liked to try a musical instrument prior to the purchase. Likewise, retail stores usually
order instruments only if they are sure they are going to sell it. Thus, trying an
instrument before buying it is sometimes not an easy task.
The idea of the Gear & Us app comes as a result of both the frustrated need musicians
have when buying instruments and the increasing rise of the sharing economy
movement. Gear & Us is a mobile app designed to improve the purchasing process of
musical instruments. Following the style of second-hand websites, our app is a platform
where users are able to upload their own instruments (or associated equipment) and earn
money by letting people who live nearby and are interested in their instruments try
them.
This document contains the business plan that analyses the viability of creating a
company around this mobile app. There are different aspects which are analysed in it,
such as the company’s internal organization, the market of this app, the sector in which
the company is located, the marketing plan, the economic and financial viability of the
project and the growth strategies for the future.
2017-04-18
2017-04-18
2017-04-18
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30831
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308322018-12-18T12:37:41Zcom_10230_20650com_10230_16441col_10230_22179
Estimació dels punts característics dels ulls per corregir l’efecte dels ulls vermells
Pérez Torres, Antoni Joan
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Xavier Binefa Valls i Oriol Martínez Pujol
L’efecte dels ulls vermells en imatges, que consisteix en l’aparició de les pupil·les vermelles, és provocat pel flaix d’una càmera utilitzat per l’absència de llum suficient per
fer una fotografia [Wang, J. Y., 2001]. Això es va convertir en un problema que motivà la incorporació de càmeres digitals més sofisticades i programes d’edició que ja ho
solucionen.
En aquest projecte es proposa analitzar les imatges de persones amb l’objectiu de corregir
l’efecte. Per efectuar aquest anàlisi, primer es crea un mètode d’aprenentatge que detecta la cara de la persona, amb l’algoritme de Viola & Jones [Viola, P., & Jones, M. J., 2004],
i extreu les característiques dels 68 punts facials característics, amb Scale-Invariant Feature Transform (SIFT) [Lowe, D. G., 2004]. Seguidament, es la regressió lineal per
aprendre a trobar els landmarks i s’aplica el regressor obtingut a una imatge test per
aconseguir els punts dels ulls per tal de trobar la seva regió i finalment corregir el color
si es necessari.
The red-eye effect in images, that consists in the appearance of red pupils, is caused by
the camera’s flash used in the absence of sufficient light for taking a photo. This problem gave rise to the incorporation of more sophisticated digital cameras and editing software in order to resolve it.
This project proposes to analyse people’s images in order to correct the effect. To make this analysis, first I create a learning method that detects people’s face, using the Viola &
Jones algorithm, and extracts the features of 68 facial landmarks, using the Scale-
Invariant Feature Transform (SIFT). Straightway, I do the regression which learns to find
the landmarks and then the obtained regressor is applied to a test image to get the eye
points in order to find their area and finally to correct the colour if it is necessary.
2017-04-18
2017-04-18
2017-04-18
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30832
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308502018-01-24T08:21:34Zcom_10230_20650com_10230_16441col_10230_22179
Iluminación Interactiva con Protopixel
Piñeiro Viña, Alejandro Javier
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Sebastian Mealla
Protopixel es un producto software y hardware desarrollado por la empresa homónima en Barcelona, el cual fue lanzado de forma beta
para early-adopters a finales de 2015. Este dispositivo físico junto a una aplicación permite el mapeado de diferentes tipos de contenido
visual a luminarias, siendo la reproducción de vídeo sobre una determinada tipología de LEDs su principal especialidad. El propósito de este Trabajo de Fin de Grado es el desarrollo de una nueva funcionalidad para la aplicación Protopixel, la cual permita la generación de contenido lumínico basado en múltiples aspectos analizados de un vídeo. Mediante el procesado de parámetros extraídos tales como la colorimetría o movimiento de un vídeo, se hace posible la creación de distintos contenidos dentro del mismo programa Protopixel, ya que cuenta con una opción de inclusión y ejecutado de scripts basados en su lenguaje nativo. El objetivo principal es la creación de un sistema automático de iluminación que acompañe a vídeo, pudiendo tener otras muchas aplicaciones si se desea. El contenido generado en Protopixel consta de varios parámetros modificables que se traducen en diferentes disposiciones de luz en el espacio y en un lenguaje lumínico que ayuda al contenido video-gráfico a expresar más allá de los límites
del marco en el que se muestra. La empresa Emex, proveedora de servicios audiovisuales tales como contenido y hardware, permitirá en su showroom la implementación y pruebas de campo, facilitando la focalización del trabajo en unos determinados use-cases. La interacción se realiza entre el analizador de vídeo, con sus múltiples parámetros, y Protopixel, pudiendo ser en tiempo real o como en los casos tratados, previa a la reproducción simultánea de contenidos en el lugar de la instalación
Protopixel is a software and hardware product developed by a same
named company in Barcelona. It was released in a beta way for
early-adopters in the lately 2015. This device in addition to an
application allows mapping different kind of visual content to
luminaries, being the video playback over LED its main feature.
The aim of this Grade’s Final Project is to develop a new
functionality for the Protopixel application and it would be able to
generate luminic content based on many features extracted from
video analysis.
Using data as colour or movement information from a video, and
data processing, is possible to generate content within Protopixel
because of its scripts execution function.
The main goal of the project is the development of an automatic
system for lighting-design, which could reinforce a video
experience, although it could have many other uses. The content
generated in Protopixel will have some parameters that will change
the light disposition in the space, helping to create a light-language
that allows to any video to express beyond the limits of the frame
that contains it. A company named Emotion Experience, which
provides audio-visual services like media content and hardware,
would permit to use its showroom as the final implementation for
the tests, also restricting the develop work to play y some
determined use-cases.
The interaction will be played between the video analysis system
and Protopixel’s light-info generator, whether in real time or not,
and the reproduction of both contents will be synced.
2017-04-20
2017-04-20
2017-04-20
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30850
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308512018-01-24T08:21:56Zcom_10230_20650com_10230_16441col_10230_22179
Estimació de flux òptic basada en el mètode TV-L1 i raonament d’oclusions
Ruiz Ferrer, Anna
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Glòria Haro
En aquest treball es proposa un mètode per a l'estimació del flux òptic entre dos imatges
basat en l’algorisme TV-L¹. L'objectiu principal és millorar la precisió d'aquest mètode
en les zones de la primera imatge que queden ocultes en la segona. El problema de les
oclusions en la detecció del flux òptic consta de dos parts: detecció d'oclusions i estimació
del flux en les oclusions. El treball es basa, primerament, en la implementació, l’anàlisi i
comparació de diferents mètodes per a la detecció de les oclusions i, en segon lloc,
proposta, implementació i avaluació d’una versió modificada del TV-L¹ per a una millor
estimació del moviment en les zones ocultes detectades a partir d’una modificació del
terme de dades en les zones d’oclusió.
In this work it is proposed a new optical flow method based in the TV-L1 algorithm. The
main purpose is to improve the accuracy of it in zones from the first image which are
occluded in the next one. The occlusions problem in optical flow detection is divided in
two parts: occlusions detection and occlusions filling. This research is composed firstly
by the implementation, analysis and comparison of different occlusion detection methods
and, secondly, by a proposal, implementation and evaluation of a modified TV-L1 for a
better movement estimation in the occult zones detected. This modification is done
modifying the data term in occluded regions.
2017-04-20
2017-04-20
2017-04-20
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30851
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308522022-02-18T16:29:23Zcom_10230_20650com_10230_16441col_10230_22179
Ganon Spy System: An Entire Espionage Platform
Salleras, Xavier
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Vanesa Daza i Matteo Signorini
In July of 2015, 400 GB of information about an Italian company called Hacking Team
were filtered. Inside this amount of information we can find emails, conversations,
passwords of different accounts… But also the source code of Remote Control System
Galileo (RCS Galileo), the main program developed by the company. This program is able
to spy different kind of devices, and was used by different governmental institutions to spy
citizens around the world. The aim of this project is to show how this espionage system
works, and after that, develop a new spy system based on the basics of RCS Galileo, in
order to understand how a cyber-criminal could attack us, and to be able to develop new
tools which could defend us from them.
En Julio de 2015, se filtraron 400 GB de información sobre la compañía italiana llamada
Hacking Team. Dentro de esta cantidad de información se podían encontrar emails,
conversaciones, contraseñas de distintas cuentas… Pero también el código fuente del
Remote Control System Galileo (RCS Galileo), el principal programa desarrollado por la
compañía. Este programa es capaz de espiar diferentes tipos de dispositivos, y fue
utilizado por diferentes instituciones gubernamentales para espiar ciudadanos de todo el
mundo. El objetivo de este proyecto es demostrar como funciona este programa de
espionaje y, después, desarrollar un nuevo sistema de espionaje basado en las
principales características de RCS Galileo, con el fin de entender como un ciber criminal
podría atacarnos, y de ser capaces de desarrollar nuevas herramientas con las cuáles
poder defendernos de ellos.
2017-04-20
2017-04-20
2017-04-20
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30852
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308532018-01-24T08:22:32Zcom_10230_20650com_10230_16441col_10230_22179
Requerimientos Técnicos y Acondicionamiento De Un Plató Para Streaming Audiovisual En Directo
Samitier Jerez, Felip
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Enric Giné Guix
El mundo de los deportes electrónicos está experimentando una evolución muy
positiva y despierta la curiosidad de grandes empresas del mundo tecnológico, hasta
tal punto que estas empresas pagan mucho dinero para promocionar un evento
relacionado con los deportes electrónicos. Gracias a este mundo han surgido muchas
personas y startups con el fin de hacerse un nombre creando competiciones, pequeños
eventos y sobretodo programas en directo que emiten a través de Internet
(streaming). Este proyecto tiene como objetivo tratar todos los aspectos técnicos de
un plató para poder transmitir programas de deportes electrónicos en directo. Para
ello, se ha diseñado e implementado des de cero un plató para una empresa, con el fin
de que ésta pueda utilizarlo para futuros directos. El proyecto se ha llevado a cabo
respetando siempre los requerimientos de la empresa, en especial la necesidad de
disponer de dos platós en uno, con y sin realizador. Para ello se planteó un diseño
económico y adaptado que ahora mismo ya está en funcionamiento dentro de la
empresa.
Electronic sports games environment is under positive development and is attracting
lots of technology business as far as the fact that there are so many enterprises paying
a big amount of money in order to promote events based on electronic sports games.
As a result it has been created many Startups trying to make a name for themselves
making competitions, little events and above all live shows that are being streamed on
the Internet. This project aims the technical aspects of a set or stage that is necessary
for streaming electronic sports games on live. To this end it has been designed and
developed a set from scratch for a business in order to be used in upcoming shows. . In
addition this project has been developed attending to all requirements of that
business, mostly focused on provide two sets in one, with and without director. For
this aim it has been made a low budget design and moreover suiting the one that is
now working in that business.
2017-04-20
2017-04-20
2017-04-20
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30853
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308542018-01-24T08:21:33Zcom_10230_20650com_10230_16441col_10230_22179
Creating a plenoptic camera through an external mask
Valls Farré, Lara
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Juan Fco. Garamendi
Nowadays, there are plenoptical cameras through which can be obtained images that give us special information.
On each image, we get the direction from which the light reflected by the objects comes (lightfield). This type of information is useful in applications of computer vision such as estimation of the depth. The purpose of this work, is the theoretical study and the creation of a plenoptical camera, departing from a conventional reflex camera without modifying any internal parameter of the camera. The theoretical aspects that have been addressed have been the onset of vignetting, change of perspective and the design of the external mask. The working paper is complemented by the implementation of a method of depth calculation through the images we get with the camera created.
Hoy en día, existen cameras plenopticas mediante las cuales se pueden obtener imágenes con información de la dirección de la que proviene la luz reflejada por los objetos (lightfield). Este tipo de información es útil en aplicaciones de visión por computador como la estimación de la profundidad.
El propósito de este trabajo es el estudio teórico y la creación de una cámara de este tipo partiendo de una cámara reflex convencional sin modificar ningún parámetro interior de la cámara. Los aspectos teóricos abordados han sido la aparición del viñeteado, cambio de perspectiva y el diseño de máscaras externas. El trabajo se complementa con la implementación de un método de cálculo de profundidad a partir de imágenes obtenidas con la cámara creada.
2017-04-20
2017-04-20
2017-04-20
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30854
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/308552018-01-24T08:21:32Zcom_10230_20650com_10230_16441col_10230_22179
Pla de negoci de Bookventure
Vivancos Garcia, Xavier
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Jordi Bosch
L'objectiu d'aquest Treball Final de Grau és redactar un pla de negoci sobre una
empresa dedicada al desenvolupament d'aplicacions de llibres interactius disponibles
per dispositius Android. Llibres on tu decideixes l'esdevenir de la història mitjançant
decisions, convertint-te en el principal protagonista. A més, s'utilitzen recursos
audiovisuals que ajuden a augmentar la immersió del lector. La principal finalitat
d'aquests afegits és incentivar i promocionar la lectura com una activitat divertida i
interessant.
El projecte abasta temes diversos com l'anàlisi de l'entorn i el sector, el pla de
màrqueting o altres aspectes més tècnics com el pla d'operacions, on incloem el disseny
de la interfície mitjançant mockups. De forma addicional s'ha realitzat una enquesta per
conèixer en profunditat el mercat. Un altre assumpte vital és la viabilitat econòmica i
financera, que ens servirà per establir si és possible o no tirar endavant el projecte.
El objetivo de este Trabajo Final de Grado es redactar un plan de negocio sobre una empresa dedicada al desarrollo de aplicaciones de libros interactivos disponibles para dispositivos Android. Libros donde tú decides el devenir de la historia mediante decisiones, convirtiéndote en el principal protagonista. Además, se utilizan recursos audiovisuales que ayudan a aumentar la inmersión del lector. La principal finalidad de estos añadidos es incentivar y promover la lectura como una actividad divertida e interesante.
El proyecto abarca temas diversos como el análisis del entorno y el sector, el plan de márquetin u otros aspectos más técnicos como el plan de operaciones, donde incluimos el diseño de la interfaz mediante mockups. De forma adicional se ha realizado una encuesta para conocer en profundidad el mercado. Otro asunto vital es la viabilidad económica y financiera, que nos servirá para establecer si es posible o no tirar adelante el proyecto.
The objective of the Final Degree Project is to elaborate a Business Plan about a company, which it is dedicated to the development of interactive books for Android devices. Books where you decide the course of history through decisions, becoming the main protagonist. In addition, the application uses audiovisual resources which increase the reader’s immersion. The main purpose is to encourage and promote reading as a fun and interesting activity.
The project covers topics such as the environment and sector analysis, the Marketing plan, and more technical aspects such as the plan of operations, which includes the interface design through mockups. Another vital issue is the economic and financial viability, which will serve to establish whether it is possible or not go ahead with the project.
2017-04-20
2017-04-20
2017-04-20
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/30855
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329132018-01-24T08:24:58Zcom_10230_20650com_10230_16441col_10230_22179
Inpainting on diffusion weighted magnetic resonance images. An application to
tractography of multiple sclerosis patients
Vicente Sola, Alex
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Juan Francisco Garamendi i Elena H. Martínez-Lapiscina
Diffusion weighted magnetic resonance imaging is a key modality in medical imaging
for neuroscience, which allows to deduce the fiber tracts that conform the brain’s white
matter. With this technique, displacement of water molecules in a specific spatial
direction is measured, giving information of the shapes depending on the predominant
diffusion directions. When this technique is used on images from multiple sclerosis
patients there are some areas where water diffusion is equally distributed due to the
illness’ effect, losing the necessary information to reconstructing the fiber tracts. In this
thesis, we propose a variational method based on the Laplace partial differential
equation to estimate the right information on those damaged areas allowing the fiber
tract reconstruction (tractography). Finally, we also present experiments over synthetic
and real images.
Las imágenes potenciadas en difusión son un método clave en imagen médica para
neurociencia, que permiten deducir los tractos que conforman la materia blanca del
cerebro. Usando esta técnica, se puede medir el desplazamiento de moléculas de agua
en una dirección espacial concreta, lo que nos da información estructural dependiendo
de las principales direcciones de difusión. Cuando esta técnica se usa con imágenes de
difusión de pacientes con esclerosis múltiple, sin embargo, algunas áreas lesionadas
muestran una distribución de la difusión equiprobable, perdiendo la información
necesaria para reconstruir los tractos. En esta tesis, proponemos un método variacional
basado en la ecuación diferencial de Laplace para estimar la información en esas zonas
lesionadas, permitiendo así reconstruir los tractos (tractografía). Para acabar, también
presentamos experimentos sobre imágenes sintéticas y reales.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32913
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329142018-01-24T08:25:46Zcom_10230_20650com_10230_16441col_10230_22179
Implementación de una interfaz online para crear visualizaciones de audio en tiempo real
Farré Puig, Eduard
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Javier Agenjo
Este trabajo consiste en el desarrollo de una interfaz online que permita a los
usuarios crear escenas virtuales y relacionar sus componentes con distintas características
extraídas de un fichero de audio, sin necesidad de tener conocimientos técnicos sobre
computación gráfica ni descriptores de audio.
El objetivo principal de este proyecto es facilitar al usuario una herramienta para
poder crear visualizaciones en tiempo real del audio para así proveer una experiencia
audiovisual más completa, percibiendo el contenido audiovisual mediante más de un
sentido gracias a la correlación que mantendrán las características del audio con la escena
que se está visualizando.
La finalidad de implementar una aplicación o herramienta de este tipo es explorar
las posibilidades que nos ofrece la tecnología web para llevar a cabo proyectos
audiovisuales, contribuyendo de este modo a generar nuevas formas de crear y compartir
fácilmente contenido audiovisual.
Estas escenas podrán ser implementadas mediante la relación entre distintos nodos
o cajitas que cada una de ellas reasentará un objeto, acción u operación que será diferente
según como estén enlazados entre ellos. Pudiendo así implementar una escena que siga
una jerarquía y así obtener resultados distintos usando un rango pequeño de nodos.
The objective of this project, is to implement an online interface that allows users
with lack of technical knowledge about computer graphics and audio features to create a
scene with different types of objects that will be related with different audio
characteristics for a final real time audio visualization.
The main goal of this project is to provide to the user an immersive audio-visual
experience, making them perceive the media content through more than one sense by
rendering in their own scenes the audio data.
Minding on the aim of the project, it is explore about possibilities that technology
brings us to create web application and relate that audiovisual content which user will be
able to share.
Those audio visualizations will be defined by setting relations between different
nodes using a graph system implementation. Those nodes or boxes affect to the object
accordingly to its hierarchy offering to user the possibility of get different results by using
few of them.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32914
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329152018-01-24T08:18:11Zcom_10230_20650com_10230_16441col_10230_22179
Análisis de movilidad y perfil socioeconómico de determinados colectivos de estudiantes UPF
Mayans Yern, Marc
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Xavier Binefa Valls
A día de hoy, la utilización de la Ciencia de Datos está revolucionando todo tipo de sectores
gracias a las nuevas perspectivas que confiere la comprensión los datos y el gran beneficio
que significa para las tecnologías actuales.
En este estudio se intentan comprender, a partir de una cantidad de datos limitados, las
necesidades y deficiencias de los estudiantes en algo tan importante como es la movilidad
diaria para acceder a la universidad. Esta variable puede afectar en el rendimiento de los
estudiantes y a la decisión de optar a una universidad u otra. Por otra parte, se analiza el
origen social y económico que rodea a los estudiantes y su correlación con la naturaleza de los
centros de Educación Secundaria y Formación Profesional de los que provienen.
Este estudio resulta de gran relevancia para conocer el perfil social y económico y la
distribución geográfica de los diferentes colectivos de estudiantes. Al mismo tiempo, permite
comprender el esfuerzo que conlleva el desplazamiento diario para acceder al Campus de
Poblenou y conocer cómo afectarían las iniciativas municipales en marcha a las necesidades
de transporte de los estudiantes.
Nowadays, the use of Data Science is transforming all kind of sectors thanks to the new
perspectives conferred by the understanding of the data and the great benefit that it means for
the current technologies.
This study tries to understand from limited data the needs and deficiencies of students in an
issue as important as the daily mobility to access the university, which is a variable that can
affect the performance of students and the decision to choose one university over another one.
On the other hand, it analyzes the social and economic origin that surrounds the students and
their correlation with the nature of the secondary education and vocational training centers
from which they come.
This study means a great relevance to know the social and economic profile and geographical
distribution of the different groups of students. At the same time, understand the effort
involved in the daily commute to access the Poblenou Campus and learn how municipal
initiatives will affect the transportation needs of students.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32915
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329162018-01-24T08:18:15Zcom_10230_20650com_10230_16441col_10230_22179
Transcripción automática de guitarra adaptada al flamenco
Rodríguez Luque, Sonia
Treball de fi de grau en Sistemes Audiovisuals
Tutora: Emilia Gómez
El papel de la guitarra en el Flamenco, a diferencia de otros géneros, tiene una forma de
transmisión del arte oral; tanto las canciones como la terminología usada, han pasado de
generación en generación sin haber sido escritas.
En el área de Music Information Retrieval (MIR), se han desarrollado algoritmos que
permiten obtener, automáticamente, representaciones simbólicas a partir de análisis de
grabaciones sonoras. En este proyecto abordamos el problema de la transcripción
automática de guitarra flamenca. El principal objetivo es el desarrollo de un algoritmo
que procese una señal audio, que contenga una o varias falsetas de guitarra flamenca,
para obtener su representación simbólica. Para ello, deberá primero localizar los
segmentos sonoros considerados como falseta que, posteriormente, serán transcritos
automáticamente a un archivo MIDI.
La meta de este proyecto es hacer, de este algoritmo, una herramienta útil tanto para el
aprendizaje, como para el estudio de la guitarra flamenca. Intentamos así, proporcionar
un soporte informático como primer paso para la única alternativa existente en la
actualidad del flamenco: la transcripción manual, muy costosa y que requiere
conocimientos, del flamenco y musicales, avanzados.
Unlike other genres, the role of the guitar in Flamenco music is transmitted orally; both
songs and terminology have passed down across generations without a writing system.
In the field of Music Information Retrieval (MIR), some algorithms have been
developed to automatically obtain symbolic representations by analysing audio
recordings. In this project, we deal with the problem of automatic transcription of
flamenco guitar. The main goal is to develop an algorithm to process an audio signal
which contains one or several guitar falsetas and extract their symbolic representation.
To do so, we first need to locate the segments considered as a falseta, which are then
transcribed into a MIDI file.
The goal of this project is to develop a tool which is useful both for learning and
studying flamenco guitar. We aim at providing a computer-aided system as a first step
to the only current alternative in flamenco: manual transcription, which is very difficult
and requires advanced music and flamenco knowledge.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32916
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329172018-01-24T08:18:37Zcom_10230_20650com_10230_16441col_10230_22179
Códecs de audio en la identificación de pistas musicales mediante sistemas de huella digital
acústica
Casas Llargués, Joan
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Carles Martin Badell
En este trabajo se realiza un estudio sobre el efecto de los códecs de audio
en la capacidad de identificación de pistas musicales utilizando sistemas
de fingerprinting. Inicialmente, se analiza la robustez de cada códec frente
a diferentes tipos de degradaciones. Para la evaluación, se crea un entorno
simulado, donde se levanta un sistema de fingerprinting propio con una
base de datos de 10.000 canciones, y se somete frente a archivos degradados
intencionadamente de diferentes tipos y grados. Entre las degradaciones
utilizadas, se encuentran la compresión de rango dinámico, mezcla
con ruido y alteraciones en el tono y duración de la señal. Finalmente,
tras ver el comportamiento de cada códec, se desarrolla un caso práctico
utilizando el contenido de un canal de radio y televisión para comparar
los resultados.
In this work, a survey about how the audio codification formats affect
in song recognition using fingerprinting systems will be developed. Initially,
the robustness of each audio codec will be evaluated using different
type of degradations. In order to do that, a synthetic environment is built,
raising an own fingerprint system built from excerpts of 10,000 musical
pieces and testing it against intentionally degradated queues. Among the
used degradations, dynamic range compression, noise, pitch shifting or
time stretiching can be found . Finally, after analysing each codec performance,
a real case is developed using TV and radio channels content in
order to compare results.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32917
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329182018-01-24T08:18:42Zcom_10230_20650com_10230_16441col_10230_22179
Estudi i avaluació acústica a les aules del Campus de la Comunicació de la Universitat Pompeu Fabra i de l’Escola Superior de Música Universitària de Catalunya
Viñals Garrell, Jaume
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Enric Guaus Termens
Aquest treball de fi de grau avalua un tractament d’acústica arquitectònica des del punt
de vista tècnic i funcional, fet en l’interior d’alguns dels espais de dos institucions de
Barcelona: El campus de la comunicació de la Universitat Pompeu Fabra (UPF) i
l’Escola Superior de Musica Universitària de Catalunya (ESMUC). Ambdós grups
d’espais comparteixen finalitat, la de la docència; però presenten problemes i reptes ben
diferents: Com ara el compliment de la legislació vigent d’higiene i seguretat laboral, la
millora de l’intel·ligibilitat de la paraula a les aules o el respecte a l’estètica pròpia.
Per dur a terme aquest treball de fi de grau, s’han realitzat estudis objectius, prenent
mesures als espais a tractar i un cop ja tractats; així com també estudis subjectius basats
en enquestes sobre la percepció dels usuaris. Així mateix s’ha desenvolupat una eina de
simulació del comportament del so en recintes acústics per tal de preveure l’impacte de
les propostes de tractaments de millora.
This final grade project evaluates a room acoustic treatment from the technical and
functional point of view, made in some buildings of two institutions of Barcelona: The
communication campus of the University Pompeu Fabra (UPF) and the School of Music
of Catalonia (ESMUC). Both spaces share an objective, teaching; but they have very
different problems and challenges: Such as the compliance with the legislation of
hygiene and safety in labour, improving the speech intelligibility in the classrooms or
with respect to aesthetics.
To carry out this final grade, there have been made some objective studies, taking
samples of the classrooms to be treated and treated once already; as well as studies
based on subjective surveys on the perception of the users. It also introduces a tool that
has been developed for simulating the acoustical behaviour of a closed space to predict
the impact of the proposed treatment for improving the acoustics of these classrooms.
Este trabajo fin de grado avalúa un tratamiento de acústica arquitectónica des del punto
de vista técnico y funcional hacho en el interior de algunos espacios de dos instituciones
de Barcelona: El campus de la comunicación de la Universidad Pompeu Fabra (UPF) y
la Escuela Superior de Música Universitaria de Cataluña (ESMUC). Ambos espacios
comparten finalidad, la de la docencia; pero presentan problemas y retos bien distintos:
Como el cumplimiento de la legislación vigente de higiene y seguridad laboral, la
mejora de la inteligibilidad de la palabra dentro de las aulas o el respeto a la propia
estética.
Para llevar a cabo este trabajo fin de grado, se han realizado estudios objetivos, tomando
muestras a los espacios a tratar y una vez ya tratados; así como también estudios
subjetivos basados en cuestionarios sobre la percepción de los usuarios. También se ha
desarrollado una herramienta de simulación del comportamiento del sonido en recintos
acústicos a fin de prever el impacto de las propuestas de tratamiento de mejora.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32918
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329192018-01-24T08:27:17Zcom_10230_20650com_10230_16441col_10230_22179
A deep learning approach to source separation and remixing of HipHop music
Martel Baro, Héctor
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Marius Miron
Audio source separation has been one of the major research fields in audio processing
during the past years. The main purpose of this discipline is to decompose a mixture
signal into simpler components called sources, which applied to professionally
produced music means to recover the instrument tracks. This is achieved by undoing the
mixing process, which might vary depending on the music genre. In this work, an
existing framework based on Deep Neural Networks will be adapted to the
particularities to HipHop music and tested with a proposed dataset. The aim is to
determine whether or not it is a suitable approach to be implemented in a remixing
application. For this reason, objective and subjective quality tests are performed to
evaluate the resulting separations.
The isolated instrument tracks can be used for many different purposes, specially
focusing on the following two aspects. First, each instrument can be placed in a 3D
space so that the song can be reproduced not only in stereo, but in more complex
configurations for which the song was not initially produced. Second, all the
instruments can be controlled separately to edit the song, thus, enabling the possibility
to remix it. Consequently, further work on this subject will make it possible for
musicians and producers to manipulate mixed songs in new powerful ways to create
their content.
La separación de fuentes de audio ha sido uno de los campos de investigación
principales en procesamiento de audio durante los últimos años. El objetivo principal de
esta disciplina es descomponer una señal mezclada en componentes más simples
llamados fuentes, lo cual aplicado a música producida de forma profesional implica
recuperar los instrumentos en pistas. Esto se consigue deshaciendo el proceso de
mezcla, que puede variar dependiendo del género musical. En este estudio, un método
existente basado en Deep Neural Networks se adaptará a las particularidades de la
música HipHop y se evaluará con un conjunto de datos propuesto. La finalidad es
determinar si es o no un método apropiado para ser implementado en una aplicación de
remezcla. Por este motivo, se realizan pruebas objetivas y subjetivas de la calidad para
evaluar los resultados de las separaciones.
Las pistas aisladas se pueden utilizar para diferentes propósitos, especialmente
centrándose en los siguientes dos aspectos. Primero, cada instrumento puede ser
colocado en un espacio 3D de manera que la canción pueda reproducirse no solo en
stereo, sino en configuraciones más complejas para las que no fue producida
inicialmente. Segundo, todos los instrumentos se pueden controlar independientemente
para editar la canción y, por tanto, brinda la posibilidad de remezclarla. De esta manera,
trabajo posterior en esta área posibilitará a músicos y productores la manipulación de
canciones mezcladas de nuevas maneras para crear su contenido.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32919
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329202018-01-24T08:18:50Zcom_10230_20650com_10230_16441col_10230_22179
Mejora de las técnicas de sonido envolvente con reverberaciones sintéticas
Ruiz-Sarmiento Navarro, Manuel
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Ricardo Jorge Rodrigues Sepúlveda Marques
Cada vez más en el cine se le da importancia a la inmersión del espectador. Esta
inmersión se puede llegar a conseguir a través de varios recursos. Como por ejemplo la
calidad de imagen en la pantalla y el tamaño de la resolución, las imágenes en tres
dimensiones o con un audio lo más fiel posible al sonido que escucharíamos si
estuviéramos en la situación de la película realmente. Este último recurso es el que los
ingenieros de sonido se encargan de mejorar con los sistemas surround o sonido
envolvente. Estos sistemas de surround, basados en técnicas de audio espacial, en sus
modelos más básicos solo se encargan de posicionar el sonido virtual en el espacio sin
tener en cuenta las características de la sala vista en la película. El resultado es que el
sonido que se escucha en estos sistemas de surrround es un audio muy seco y sin la
coloración con la cual se debería escuchar realmente en dicha sala mostrada en pantalla.
El proyecto se centrara en analizar estas características de la sala de la película mediante
una simulación virtual para poder añadirle al sonido resultante esos matices que antes
no se reproducían y de esta manera hacer más natural el sonido que reciba el espectador.
The cinema industry is giving an increased importance to the immersion of the viewer.
This immersion can be achieved through various resources. As for example through the
quality and size of the image on the screen and size, through the use of the 3D cinema in
three dimensionstechnology, or withby resorting to an audio which is as faithful as
possible to the sound we would hear if we really were in the situation of the film really.
This last resort is the one that sound engineers are responsible for improving with
surround systems or surround sound. These surround systems, in their most basic
models, onlysimply take care of positioning the sound in space without taking into
account the characteristics of the room seen in the film. Consequently, Tthe resulting is
that the sound that should be heard actually has many more nuances than the surround
sound does not represent. lacks important neances which should be heard by someone
inserted in the situation depicted by the film.
The next step would be to add these characteristics of the movie room to be able to add
to the resulting sound those nuances that were not previously reproduced and add more
naturalness to the sound.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32920
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329212018-01-24T08:18:38Zcom_10230_20650com_10230_16441col_10230_22179
Càlcul, simulació i disseny per la construcció d’una caixa acústica
Calleja Cruz, Daniel
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Enric Giné
Construir una caixa acústica de dues vies i bass reflex no és tant trivial com pugui semblar
d'entrada. Requereix de coneixements mecànico-electro-acústics per comprendre les
interaccions entre altaveus, caixa ressonant i patrons de radiació, capacitat per simular i
construir circuits i un cert grau d’habilitat en manualitats, tall de fusta, plàstic, absorbent
i altres materials per tal d'aconseguir el model desitjat.
En aquest projecte trobareu una guia pas a pas de com construir la vostra pròpia caixa
acústica en 8 capítols. Des d’una explicació teòrica de les analogies que ens trobarem en
tot el camí, fins el disseny i construcció dels filtres, els càlculs oportuns o com tallar la
fusta i dissenyar la caixa acústica a mida per als altaveus, sense oblidar la mesura i escolta
crítica del sistema un cop construït.
The construction of a 2-way loudspeaker system and its enclosure (a vented box in our
case) is not an easy task. It requires knowledge in mechanics, acoustics and electronic
circuits in order to understand the behavior and interaction among loudspeakers, the
enclosure and overall radiation patterns, and also the skills to simulate and construct
electric circuits, as well as manipulating wood, rubber, foam and other materials for the
actual construction.
In this project you will find a step by step guide of how to build your own loudspeaker
system in 8 chapters. From the theoretical explanation of analogies to the design and
implementation of the x-over filter, the calculations and cutting of wood and other
materials in order to build the enclosure to its proper dimensions, without forgetting the
system’s measurement and critical listening once completed.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32921
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329222018-01-24T08:27:22Zcom_10230_20650com_10230_16441col_10230_22179
Depth map estimation using focus and aperture bracketing from a modified Canon 600D camera
Palomo Domínguez, Àlex
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Juan Francisco Garamendi Bragado
In this work, we propose a variational model for depth estimation from an image sequence
of a combined focus and aperture bracketing. In order to acquire the bracketed images,
we modified a Canon 600D DSLR camera. We model the depth estimation problem as a
minimization of an energy functional with a data fidelity term that takes into account the
focus measures from different apertures. The energy to minimize is completed with a
regularization term based on the Total Variation. Depth estimation using focus measures
relies on local contrast. Homogeneous regions of the image have low local contrast,
independently if they are focused or not, so this affects to the rightness of the estimated
depth map. To overcome this problem, we propose a measure of reliability of the depth
map and use inpainting techniques to improve the depth values on those areas with low
reliability. The work is completed with the computation of an all-in-focus image. Finally,
we also show experiments over different focus/aperture bracketings from various scenes
and evaluate the behaviour of the algorithm by contrasting certain parameters.
En aquest treball proposem un model variacional per estimar la profunditat d’una
seqüencia d’imatges obtingudes a partir de la combinació de “bracketings” de focus i
obertura de diafragma. Per tal d’obtenir aquesta seqüencia d’imatges hem modificat el
firmware d’una càmera DSLR Canon 600D. Modelem el problema d’estimació de
profunditat com una minimització d’un funcional d’energia amb un terme de fidelitat de
les dades que té en conta les mesures de focus de diferents obertures. L’energia a
minimitzar es completa amb un terme de regularització basat en la Variació Total.
L’estimació de profunditat mitjançant mesures de focus té en conta el contrast local. Les
regions homogènies de la imatge tenen un contrast local baix, independentment de si estan
enfocades o no, per tant això afecta a la credibilitat del mapa de profunditat estimat. Per
afrontar aquest problema, proposem una mesura de credibilitat del mapa de profunditat i
utilitzem tècniques d’”inpainting” per millorar els valors de distància d’aquelles zones
amb una mesura de credibilitat baixa. El treball es completa amb el càlcul d’una imatge
“all-in-focus. Finalment, també mostrem experiments sobre diferents “bracketings” de
focus/obertura de diverses escenes i avaluem el comportament de l’algoritme contrastant
certs paràmetres.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32922
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329232018-01-24T08:27:26Zcom_10230_20650com_10230_16441col_10230_22179
Analysis and optimization of a high dynamic range video method
Sintes Marcos, Joan
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Marcelo Bertalmío i Raquel Gil
This work presents an optimization of a computationally expensive technique
to generate high resolution high dynamic range videos from images alternating
pairs of rows taken under different ISO values. This technique generates two
single full-frame images, one for each ISO value and combines them to obtain a
single high dynamic range image without the presence of ghosting artifacts. Different
optimization techniques and parallel programming are used to reduce the
initial execution time while preserving the same quality result. This work also
presents an analysis of the different image-dependent parameters used in the algorithm
as well as the effect of choosing different values in order to achieve the
best compromise between image quality and execution time. Finally, two versions
of this approach are introduced to obtain similar visual quality results that
require less computation time and both approaches are discussed and compared
with the original technique.
Aquest treball presenta l’optimitzacio d’una tècnica computacionalment costosa per generar videos d’alta resolucio d’alt rang din ´ amic a partir d’imatges que alternen parelles de files preses amb diferents valors de ISO. Aquesta èecnica genera dues imatges d’alta resolucio, una per cada valor de ISO i les combina per obtenir una sola imatge d’alt rang dinamic lliure de la presència d’artefactes fantasma. Diverses tecniques d’optimització i programació paral·lela s’han fet servir per reduir el temps d’execucio inicial preservant la mateixa qualitat en els resultats. Aquest treball tambe presenta un anàlisis dels diferents paràmetres dependents de la imatge utilitzats per l’algoritme així com l’afecte de l’eleccio de diferents valors per tal d’aconseguir el millor comprom´ıs entre qualitat d’imatgei temps d’execucio. Finalment, s’introdueixen dues variants d’aquest mètode per obtenir resultats de qualitat visual similar que requereixen menys temps de calcul, i tots dos enfocaments es discuteixen i es comparen amb la tècnica original.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32923
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329242018-01-24T08:27:32Zcom_10230_20650com_10230_16441col_10230_22179
Multi-view 3D reconstruction via depth map fusion for a smartphone application
Marí Molas, Roger
Treball de fi de grau en Sistemes Audiovisuals
Tutora: Gloria Haro
This work presents a multi-view 3D reconstruction system based on depth map
fusion designed to be integrated in the pipeline of a mobile application that produces
3D models using as input a collection of images taken with a smartphone
camera. Structure from Motion is used to estimate the camera matrices associated
to the different views and get a first idea about the shape of what is to be
reconstructed. This makes it possible to quickly generate a set of low-quality but
computationally cheap depth maps using the Plane Sweep algorithm, which are
merged to produce a higher quality 3D model by minimizing a TV-L¹ energy
functional. The performance of the TV-L¹ is discussed and compared to the one
obtained using TV-L². Finally, the Marching Cubes algorithm is used to extract
a polygon mesh of the 3D model, which is painted by projecting it back to the
input images while considering occlusions.
Aquest treball presenta un sistema de reconstruccio 3D mitjanc¸ant múltiples vistes basat en la fusio de mapes de profunditat i dissenyat per ser integrat en el marc d’una aplicacio mòbil que produeixi models 3D a partir d’una col·leccio d’imatges fetes amb la camera d’un telèfon intel·ligent. S’utilitza Structure from Motion per estimar les matrius de les cameres associades a les diferents vistes i obtenir una primera idea sobre la forma del que es vol reconstruir. Aixo possibilita la rapida generació d’un conjunt de mapes de profunditat de baixa qualitat pero econòmics a nivell computacional mitjançant l’algoritme de Plane Sweep, que son fusionats per construir un model 3D més precís minimitzant un funcional d’energia TV-L. El rendiment del TV-L es evaluat i comparat amb el del TV-L. Finalment, l’algoritme de Marching Cubes s’utilitza per extreure una malla poligonal del model, que es pintada fent-ne la projecció a les imatges originals tot considerant les oclusions.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32924
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329252018-01-24T08:19:15Zcom_10230_20650com_10230_16441col_10230_22179
Millora de la naturalitat i l’expressivitat en la síntesi de veu
Rabasseda Riba, Jordi
Treball de fi de grau en Sistemes Audiovisuals
Tutora: Mireia Farrús i Cabeceran
La interacció persona-màquina ha augmentat exponencialment durant els últims anys.
Un exemple d’aquest creixement es pot veure en el camp del processament de la parla, i
en concret en el de la síntesi de veu. Aquest treball va sobre el tractament de la síntesi
de veu dins el marc del projecte KRISTINA, orientat al sector mèdic, on s’utilitzarà veu
sintetitzada perquè els pacients amb dificultats de comprensió de la llengua autòctona
del país on viuen s’hi puguin comunicar.
Els sintetitzadors de veu (o Text-To-Speech (TTS) systems, en anglès) acostumen a ser
monòtons i amb poca naturalitat. Un dels objectius d’aquest treball és aconseguir
generar una millor veu per a l’avatar del projecte KRISTINA, dotant-la de més
naturalitat i expressivitat, de manera que s’acosti al màxim a una veu humana. Hem
treballat la prosòdia a nivell de paràgraf i a nivell d’estructura comunicativa, utilitzant
diferents sintetitzadors de veu. Mitjançant l’anàlisi i l’aplicació de diversos llenguatges
d’etiquetes de veu utilitzats per a modificar determinades característiques prosòdiques
relacionades amb l’entonació, la durada i la intensitat, hem aconseguit millores en la
naturalitat i l’expressivitat de la veu sintetitzada.
The human-computer interaction has increased exponentially in recent years. An
example of this growth can be seen in the field of speech processing, specifically in
speech synthesis. This work is about the treatment of speech synthesis within the
framework of KRISTINA, a project oriented in the medical sector, which develop a
conversational avatar to facilitate communication with patients with difficulties in
understanding the native language of the country where they live.
The majority of Text-to-Speech (TTS) voice synthesizers tend to be monotonous and
with few naturalness, and one of the aims of this work is to create a better voice for
KRISTINA avatar, providing it with more naturalness and expressiveness, approaching
as close as possible to a human voice. We have worked prosody paragraph level and in
terms of communicative structure, by using several speech synthesizers. By analyzing
and applying different speech synthesis markup languages used to modify certain
prosodic characteristics related to intonation, duration and intensity, we achieved
improvements in naturalness and expressiveness of the synthesized voice.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32925
cat
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329262018-01-24T08:19:36Zcom_10230_20650com_10230_16441col_10230_22179
Análisis del rendimiento académico de los estudiantes de Ingeniería de la UPF utilizando Data Science
Barbarisi, Santiago
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Xavier Binefa Valls
Hoy en día la Ciencia de Datos nos ofrece nuevos caminos para adquirir un mejor entendimiento de este
mundo, nos ayuda a tomar decisiones sobre el futuro razonando sobre el pasado, y es, como indica la revista
Harvard Business Review, ‘el trabajo más sexy del siglo XXI'.
En este Trabajo de Fin de Grado exploramos los patrones de rendimiento presentes en los datos de los
estudiantes de Ingeniería de la UPF a partir de dos perspectivas diferentes: por un lado analizamos los
estudiantes y las características de acceso que los conforman, y por otro, estudiamos como los resultados de
las asignaturas del primer trimestre se correlacionan con las grandes tasas de abandonos Universitarios.
Este proyecto resulta significativo para comprender como las características de acceso de los estudiantes,
como la vía de acceso, el centro de procedencia o el grado que realizan, afectan a los resultados que
obtienen y a su trayectoria académica en la Universidad. Al mismo tiempo veremos como y por qué han
sucedido los abandonos durante los últimos años, para establecer como la UPF ha reaccionado y gestionado
estos casos, y de esta forma ofrecer guías para disminuir estos sucesos.
Now days Data Science offers new ways to achieve a better comprehension of this world, it helps us to take
better decisions about our future reasoning about our pass and, as Harvard Business Review suggests, it is
‘the sexiest job of the 21st Century’.
In this Bachelor’s Degree Final Project we explore the patterns on the achievements of the Engineering’s
students from the UPF, from two different perspectives: one analysing the students and the features of the
enrolment, and another where we study how correlate are the subjects from the first period and the high
rates of University drop out.
The project is significant to understand how the enrolment features of students, such as the path of access,
the center of origin or the degree they perform, affect the results they obtain and their academic career at
the University. At the same time, we will see how and why the dropout occurred during the last years, to
establish how the UPF has reacted and managed these cases, and thus offer guidelines to reduce these
events.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32926
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329272018-01-24T08:04:57Zcom_10230_20650com_10230_16441col_10230_22179
Estudio, diseño, construcción y testeo de un sistema estéreo de altavoces
Crespo Cabrera, Jordi
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Agustín Martorell
Este trabajo de final de carrera se puede presentar como un estudio íntegro del funcionamiento de
un altavoz a partir de su diseño y construcción. Para ello, el contenido se divide en diferentes partes
interrelacionadas.
El primero de los capítulos del trabajo consiste en un marco teórico que abarque cada uno de los
ámbitos de la ingeniería implicados en un altavoz: la física de ondas y su extensión a la acústica, la
ingeniería electrónica, el procesado de señales, las analogías electro-mecánico-acústicas, la
ingeniería de materiales, etc.
En la segunda parte del trabajo se elabora el diseño completo de un altavoz a partir de
especificaciones teóricas previas y se simula el diseño en cuestión. Durante este tramo del trabajo se
remarca la parte del diseño y la ingeniería, prestando especial interés al proceso de diseño, a sus
problemas y a la solución de dichos problemas, siempre desde un punto de vista académico y a
forma de investigación.
A continuación, y finalizado el proceso de diseño y de simulación, comienza el proceso de
construcción. Se enfatizan cada uno de los procesos que integran esta construcción,
documentándolos de la forma más precisa posible y remarcando nuevamente los problemas
surgidos y las soluciones propuestas.
Una vez finalizado el proceso de construcción, como parte final de la construcción del modelo, se
realiza un análisis y testeo en el que se extraen las características resultantes y se aplican las
mejoras oportunas para aproximar dichas características a las planteadas como objetivos al inicio
del proceso.
Como cierre del proyecto se plantea un conjunto de conclusiones que abarquen cada uno de los
problemas principales surgidos a lo largo del proyecto en forma de resumen, además de una lista de
posibles mejoras en futuros diseños y construcciones.
Cabe remarcar que este proyecto no está orientado a dar una explicación profesional completa del
diseño y construcción de altavoces, sino más bien a transmitir el proceso de descubrimiento de
diferentes conceptos y conocimientos de la forma más explícita posible para uso del trabajo como
material lectivo.
This project is an integral study of the operation of a speaker from its design and construction. For
this, the content is divided into different interrelated parts.
The first of the chapters of the work consists of a theoretical framework that covers each of the
fields of engineering involved in a loudspeaker: wave physics and its extension to acoustics,
electronic engineering, signal processing, electrical analogies -mechanical-acoustic, engineering
materials, etc.
In the second part of the project the complete design of a speaker is elaborated from previous
theoretical specifications and the design in question is simulated. During this part of the project the
design and engineering part is highlighted, with special interest in the design process, problems and
problem solving, always from an academic point of view and a form of research.
Then, when the design and simulation process is completed, the construction process begins.Each of
the processes that integrate this construction are emphasized, doing the documents as accurately as
possible and emphasizing the problems that have arisen and the proposed solutions.
Once the construction process is completed, as the final part of the model construction, the analysis
and the test in which the resulting characteristics are extracted is performed and the best
improvements are applied to approximate such characteristics to the plants as the objectives to start
of the process .
The closing of the project is a set of conclusions that cover each of the main problems that have
arisen in the length of the project in the form of a summary, as well as a list of possible
improvements in future designs and constructions.
It should be noted that this project is not intended to give a complete professional explanation of the
design and construction of loudspeakers, but rather to convey the process of discovery of different
concepts and knowledge in the most explicit way possible for the use of the project as teaching
material.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32927
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/329282018-01-24T08:04:57Zcom_10230_20650com_10230_16441col_10230_22179
Sistema de eventos reactivo centrado en el usuario para la gestión de alertas
Planells Alba, Alejandro
Treball de fi de grau en Sistemes Audiovisuals
Tutors: Carlos Bock i Daniel Soto
El uso de la tecnología para aumentar el bienestar y la comodidad de las
personas es un fin que debería motivar a todo desarrollo tecnológico. En ese
sentido las tecnologías de IoT son muy interesantes para conseguir dicho fin. Por
ejemplo, poder controlar el entorno del usuario a través de un dispositivo
electrónico o informar de lo que está sucediendo alrededor de él, son tareas
útiles que deberían poder proyectarse en nuestra vida cotidiana. En este
proyecto se analizan tecnologías incipientes para diseñar y modelar un sistema
de eventos reactivo que es capaz de recibir diferentes tipos de eventos para que,
una vez procesada la información, se presente cuando sea necesario una alerta
al usuario. Dicha alerta será enviada y presentada de forma diferente
dependiendo del estado del cliente. Las variables para presentar la alerta de una
u otra forma son la localización del usuario y los dispositivos disponibles en ese
momento. Por tanto, un punto clave de este proyecto es la posibilidad de integrar
diferentes interfaces, tanto de entrada como de salida, a la vez que se centra
completamente en el propio usuario.
L’ús de la tecnologia per augmentar el benestar i la comoditat de les persones és
un fi que hauria de motivar a tot desenvolupament tecnològic. En aquest sentit
les tecnologies d’IoT son molt interessants per tal d’aconseguir aquest fi. Per
exemple, poder controlar l’entorn de l’usuari a través d’un dispositiu electrònic o
informar del que està succeint al voltant d’ell, son tasques útils que haurien de
poder projectar-se a la nostra vida quotidiana. En aquest projecte s’han analitzat
tecnologies incipients per tal de dissenyar i modelar un sistema reactiu
d’esdeveniments que és capaç de rebre diferents tipus d’events per a que, una
vegada processada la informació, es presenti quan sigui necessari una alerta a
l’usuari. Aquesta alerta serà enviada i presentada de forma diferent depenent de
l’estat del client. Les variables per presentar l’alerta d’una forma o una altra son
la localització de l’usuari i els dispositius disponibles en aquell moment. Per tant,
un punt clau d’aquest projecte és la possibilitat d’integrar diferents interfícies, tant
d’entrada com de sortida, a la vegada que es centra completament en el propi
usuari.
The use of technology in order to improve the well-being and comfort of the
people is an end that should motivate every technological development. In this
sense, IoT technologies are really interesting for achieving this goal. For
example, being able to control the user’s environment through an electronic
device or informing about what is happening around him, are useful tasks that
should be projected in our daily life. This project analyses emerging technologies
to design and model a reactive event system that is capable of receiving different
types of events so that, once the information is processed, an alert is presented
to the user. This alert will be sent and presented differently depending on the
client’s status. The variables to present the alert in one form or another are the
user’s location and the available devices at that time. Therefore, a key point of
this project is the possibility of integrating different interfaces, both input and
output, while focusing entirely on the user.
2017-10-11
2017-10-11
2017-10-11
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/32928
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/330402018-01-24T08:15:26Zcom_10230_20650com_10230_16441col_10230_22179
Implementación de un sistema de estimación de modalidad desde audio
Gomis Riera, Sergi
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Agustín Martorell Domínguez
La intención de este TFG es la de crear un sistema capaz de analizar
y estimar la modalidad musical de una pista de audio en formato
digital importada desde el mismo programa. El código está
programado en Matlab y dispone de una pequeña interfaz de usuario
para facilitar su práctica. El sistema analiza el chromagrama de la
señal, y a partir de un método basado en comparación de perfiles,
realiza una estimación utilizando dos cálculos de similitud. No
obstante, para el estudio y análisis de la evaluación, sólo se han
escogido 4 modalidades para hacer una estimación más aproximada
al conjunto de datos conocidos.
La intenció d'aquest TFG és la de crear un sistema capaç d'analitzar
i estimar la modalitat musical d'una peça d'àudio en format digital
importada des del programa mateix. El codi está programat en
Matlab i disposa d'una petita interfaç d'usuari per a facilitar el seu
ús. El sistema analitza el chromagrama de la senyal, i a partir d'un
mètode basat en comparació de perfils, realitza una estimació
utilitzant dos càlculs de similitut. No obstant, per a l'estudi i análisi
de l'avaluació, només s'escollirán 4 modalitats per a fer una
estimació més aproximada al conjunt de dades conegudes.
2017-10-18
2017-10-18
2017-10-18
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/33040
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/330712018-01-24T08:30:27Zcom_10230_20650com_10230_16441col_10230_22179
Development of a full-body interaction videogame for children with Autism based on generative graphics and a Kinect-based tracking system
Domènech López, Marc
Treball de fi de grau en Sistemes Audiovisuals
Tutor: Narcís Parés Burgues
The main objective of this research project is to develop the tracking and virtual system
framework to support a multiplayer game specially destined for children with Autism.
With this system, the players are expected to interact and communicate with each other
in order to make them develop new social and communication behaviors.
To do so, this project is based on a full body interaction system. In order to create such
a system, the game uses a Kinect-based tracking system, allowing us to detect gestures
as well. Concretely, two Kinects are being used and connected via an OSC connection.
The game that will be developed for this platform will be implemented using Unity, a
game engine program. Currently, a prototype application has been developed also in
Unity to be able to test the technology developed in this TFG.
With the objective of bringing this system to special schools and hospitals, the set-up
will also be portable. This way it will be easily transportable, and adaptable to different
classrooms sizes and configurations.
El principal objectiu d’aquest projecte és desenvolupar un sistema virtual i de seguiment
que suporti un joc multi jugador, especialment dissenyat per a nens amb Autisme. Amb
aquest sistema, els jugadors podran interactuar i comunicar-se entre ells per tal que
puguin desenvolupar nous comportaments tant socials com comunicatius.
Per això, aquest projecte es basa en un sistema d’interacció de cos sencer. Per tal de
crear el sistema el joc utilitza el sistema de seguiment de la Kinect, permetent-nos la
detecció de gestos de l’usuari. Concretament, s’utilitzen dues Kinects i estan
connectades via OSC. El joc ha estat implementat amb Unity. Actualment, s’ha
desenvolupat, també en Unity, un prototip per tal de testejar la tecnologia utilitzada en
aquest TFG.
Amb l’objectiu de portar aquest sistema a les aules i hospitals, aquest serà portable per
tal que sigui fàcil de transportar, i s’espera fer-ne diferents versions pel que fa a les
seves dimensions per tal d’adaptar-se a diferents classes i configuracions.
2017-10-24
2017-10-24
2017-10-24
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/33071
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/354882018-10-29T08:43:56Zcom_10230_20650com_10230_16441col_10230_22179
Arquitectura de clasificación automática de géneros musicales basada en el modelo SIMCA
Campayo Rodriguez, David
Treball de fi de grau en informàtica
Tutor: Enric Guaus
En este proyecto, se presenta una nueva arquitectura de datos para la clasificación automática de géneros musicales basada en contenido aplicando el modelo Soft Independent Modelling Of Class Analogies (SIMCA). En concreto, se pretende estructurar la información de entrada para generar clasificadores individuales y especializados en cada género musical. De este modo, son capaces de discernir entre lo que corresponde a su propio género y lo que no, creando una arquitectura de clasificación por descarte. Para ello, se parte de la colección de géneros musicales propuesta por George Tzanetakis para extraer características de audio digital utilizando técnicas de Recuperación de Información Musical (MIR) y aplicar modelos de optimización datos basados en Análisis de Componentes Principales (PCA). Finalmente, se realiza el entrenamiento y testeo aplicando técnicas de clasificación supervisada para comparar el nuevo modelo frente al actual y enfrentarlo a bases de datos externas al proceso de clasificación. Esta nueva arquitectura y la convencional, se han realizado en su totalidad en código Python, mediante herramientas de extracción de características a través de Sonic Annotator y el soporte del programa de aprendizaje automático y minería de datos Weka.
In this project, a new data architecture for the automatic classification of musical genres
based on content applying Soft Independent Modelling Of Class Analogies (SIMCA)
model is presented. Specifically, it is intended to structure the input information to
generate individual and specialized classifiers in each musical genre. In this way they can
discern between what corresponds to their own genre and what does not, creating an
architecture of classification by discarding. To do this, it starts from the database
classified by George Tzanetakis to extract digital audio features using Music Information
Retreival (MIR) techniques and apply data optimization models based on Principal
Component Analysis (PCA). Finally, train and test phases are carried out applying
supervised classification techniques to compare the new model with the current one and
confront it to databases external to the classification process. This new architecture and
the conventional one, have been made entirely in Python code, through feature extraction
tools using Sonic Anotator and the support of automatic learning and data mining
program Weka.
2018-09-21
2018-09-21
2018-09-21
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/35488
spa
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/354892018-10-17T10:26:22Zcom_10230_20650com_10230_16441col_10230_22179
Lip-reading visual passwords for user authentication
Catalán Rabaneda, Paula
Treball de fi de grau en informàtica
Tutors: Federico Mateo Sukno, Adriana Fernández
The important role that technologies have in our day-to-day life makes us aware that
security is in the spotlight. Biometric-based authentication methods provide a safer
alternative to traditional PIN passwords since they evaluate who you are and not what
you know. We propose a visual password for user authentication based on automatic
lip-reading. The result of a lip-reading system is a double password, in one hand, the
word detection, and in the other, the speaker recognition. The approach we develop
in order to achieve this double recognition is based on Hidden Markov Models and
Gaussian Mixture Models, the features chosen as the input of the system are Discrete
Cosine Transform coefficients of a spoken word video frames. The results obtained in
this project show an approximate 15% of general recognition error. However, most of
this error comes from word recognition, which results to be suboptimal, while speaker
recognition is successfully achieved with errors below 4.23%.
Degut al paper que juguen les tecnologies en el nostre dia a dia, cada cop estem més
conscienciats pel que fa la seguretat en les nostres dades personals. Això ens porta a
la cerca de metodes d’autentificació d’usuaris alternatius i més segurs a les tradicionals contrasenyes PIN, com l’autentificacio basada en paràmetres biomètrics, que avaluen
qui es l’usuari enlloc de què sap. En aquest projecte es proposa una contrasenya visual per a la identificació d’usuaris basada en la lectura de llavis automàtica. El resultat
d’aquest tipus de contrasenya visual es una doble clau d’accés, d’una banda, la detecció
de paraula, i per l’altra, el reconeixement d’usuari. El sistema que es proposa esta basat
en Models Ocults de Markov i Models de Mescles Gaussianes, i com a característiques
dels vídeos dels usuaris i paraules, entrada al sistema, els coeficients de la Transformada
Discreta de Fourier dels diferents fotogrames. Els resultats obtinguts revelen un error en
general del 15%. Tot i així, la gran majoria d’aquest error es deguda al reconeixement
de paraula, ja que s’ha mostrat insuficient, mentre que el reconeixement d’usuari ha
demostrat ser molt eficaç amb un error del 4.23%.
2018-09-21
2018-09-21
2018-09-21
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/35489
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
oai:repositori.upf.edu:10230/355412018-10-17T08:06:21Zcom_10230_20650com_10230_16441col_10230_22179col_10230_22178
Boosting image captioning with an attentional mechanism = Boosting image captioning using diverse beam search
Benedicto Serrano, Javier
Treball de fi de grau en informàtica
Treball de fi de grau en sistemes audiovisuals
Tutor: Xavier Binefa Valls
The task of automatically generating captions for arbitrary digital images involves
both Computer Vision and Natural Language Processing. Popular approaches
tackle the challenge by implementing neural networks based on frameworks capable
of generating English captions of query images. Those architectures can be
split into an image processing convolution neural network (CNN) encoder component
transforming images to embedded vectors and a recurrent neural network
(RNN) as a language model decoder component transforming embedded data to
natural English sentences. In this undergraduate final project we implement and
evaluate state-of-the-art image captioning algorithm upon reviewing how various
architectures are used to generate captions for images. We propose the addition
of an attentional based mechanism to the Long Short Term Memory (LSTM) network
component of the captioning framework. In addition, we also propose the
use of a Diverse Beam Search algorithm for the RNN inference module of the caption
algorithm. Then the performance of the baseline implementation is compared
with the new tunned captioning algorithm.
La tasca de generar descripcions automatiques d’imatges digitals requereix coneixements en visió per computador i en processament del llenguatge natural. Bona part dels algoritmes que solucionen aquest problema empren xarxes neuronals
capaces de generar descripcions en angles basades en imatges. Aquestes arquitectures es poden fragmentar en dos components. El primer component es una xarxa convolucional neuronal de processament del llenguatge encarregada de codificar imatges en vectors d’informacio. El següent component és una xarxa neuronal
recurrent que modela llenguatge tot descodificant vectors d’informacio en frases
en angles. En aquest projecte de fi de grau, estudiem diverses arquitectures de
generació de descripcions d’imatge, implementem l’estat de l’art i avaluem el sistema resultant. En ell proposem un nou mecanisme atencional aplicat a la xarxa
de llarg-curt termini de memoria del nostre descodificador d’imatges. A més, tambe proposem l’ús d’un algoritme de cerca diversa per a la inferència de descripcions d’imatge efectuada a la xarxa neuronal recurrent del nostre generador
de seqüències. Finalment, avaluem les descripcions d’imatge del nostre sistema proposat en comparació a l’algoritme implementat inicialment.
2018-09-28
2018-09-28
2018-09-28
info:eu-repo/semantics/bachelorThesis
http://hdl.handle.net/10230/35541
eng
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
info:eu-repo/semantics/openAccess
Atribución-NoComercial-SinDerivadas 3.0 España
etdms///col_10230_22179/100