Empezando con LAPOP, seleccionando variables.

Written by Incio on March 26th, 2012. Posted in Introducción al R

Tengo que presentar en algunos meses un trabajo que tiene como objetivo probar algunos modelos sobre satisfacción con la democracia. Más adelante, con mayor detalle, explicaré la idea y las hipótesis principales. Para efectos de este blog, iré mostrando paso a paso como, siempre con R, llego a probar ( si lo termino) las hipótesis de este trabajo.

Primera gran pregunta ¿Cuál será mi fuente? Hasta ahora tengo claro que usaré LAPOP, y empezaré por seleccionar de la base de Perú las preguntas que me interesan. Creo que este debe ser el primer paso para empezar a trabajar,
considerando que LAPOP tienen muchas más variables de las que me interesan. Entonces los objetivos de este post son:

  1. Cargar la data de LAPOP Perú a R.
  2. Seleccionar las variables que me interesan.
  3. Grabar una base de datos con las variables que he seleccionado>
  4. Vamos a usar para este post la base de datos de LAPOP Perú. Si quieres saber más sobre LAPOP y pedir la base de datos lo puedes hacer aquí

    Si tienes problemas para conseguir la base, nos dejas un mensaje y te ayudamos.

    Vamos al R

We are back!!!

Written by Incio on February 15th, 2012. Posted in Introducción al R

Clusters

Hola, después de tiempo!! Queremos retomar este blog, prometemos postear más seguido, por mi parte tengo una estrategia, que se las pasamos a contar y que empieza en este primer post

Si tenemos más de un criterio para agrupar nuestros casos lo mejor es que recurramos a estas técnicas. Finalmente lo que buscamos obtener es que los grupos sean lo más homogeneos posible tomando en cuenta todos los criterios entregados

  1. Nuestras publicaciones serán aplicadas, queremos cubrir dos cosas principalmente:mostrar casos interesantes y aprender R
  2. Vamos a trabajar con bases de datos sociales, que creemos interesantes y que nos servirán de insumos para probar cosas y aprender a tratar los datos con el software

En este primer post, vamos a hacer un resumen de las páginas y fuentes de bases de datos para la investigación de ciencias sociales. Luego, empezaremos a hacer análisis con estas datas y para cada prueba les contaremos paso a paso como armamos la base de datos y luego como hemos aplicado en R las pruebas y obtenido los estadísticos.

Conglomerados I

Written by Incio on September 4th, 2011. Posted in Descriptiva, Gráficos

Conglomerar puede entenderse como sinónimo de agrupar, recurrimos al análisis de Cluster/Conglomerados, cuando queremos agrupar a nuestros casos utilizando varios criterios

Title

Si tenemos más de un criterio para agrupar lo mejor es que recurramos a estas técnicas. Finalmente lo que buscamos obtener es que los grupos sean lo más homogeneos posible tomando en cuenta todos los criterios entregados

En este post empezaremos a mostrar como realizar conglomerados con R, será una serie de post sobre clusters ya que para conglomerar existen varias técnicas

En el software SPSS tenemos las opciónes de K-medias, Jerarquico y Bietapico

Empezaremos en esta primera entrega con la técnica K-Medias, en este caso solo permite trabajar con variables númericas, además se tiene que indicar el número de grupos/conglomerados que se necesita

Vamos al R

Pidiendo ayuda

Written by Noam on August 17th, 2011. Posted in Introducción al R

Titulamos “Pidiendo ayuda” a este post porque en R existen comandos que nos pueden sacar de aprietos cuando no sabemos por qué un paquete o algún comando no funciona. Supongamos que estamos interesados en saber el uso del comando glm que se encuentra en el paquete stats, el cual se instala cuando instalamos el R. Para averiguar sobre el uso de glm tenemos las siguientes dos opciones que nos arrojan los mismos resultados.

help(glm) #muestra en html información sobre el comando glm
?glm #muestra en html información sobre el comando glm

El R abrirá una hoja en html en tu buscador predeterminado y te mostrará la descripción del comando, el uso, sus argumentos, algunos detalles a considerar de su uso, sus valores u objetos extraídos de la prueba, su creador o creadores, algunas referencias, paquetes o comandos relacionados y ejemplos.

Exploración univariada: estadísticos

Written by Noam on August 14th, 2011. Posted in Descriptiva

Se denomina exploración univariada al proceso en el que se obtiene las medidas estadísticas, la tabla de frecuencias y algún gráfico de resumen de una variable en particular. Primero es necesario identificar la escala en la que está medida la variable. Una clasificación ampliamente usada es la que identifica tres tipos de variables: categóricas nominales, categóricas ordinales y numéricas o escalares. Las categóricas pueden clasificarse a su vez por la cantidad de categorías o modalidades que puedan tener: dicotómicas o politómicas. Reconocidas las variables es necesario saber qué medidas y gráficas corresponden o se pueden obtener. Una nominal no puede tener media ni mediana, solo moda. Una ordinal puede tener moda y mediana pero no media. Una numérica puede tener las tres: moda, mediana y media. A estas medidas se les reconoce como medidas representativas de la variable o medidas de centralidad.

Las medidas de dispersión (cuán dispersos están los valores), simetría (para dónde está sesgada la curva que representa la distribución) y curtosis (el nivel de aplanamiento de la curva) nos indican la calidad de las medidas de representación. Para las variables numéricas calzan bien todas estas medidas, en menor grado para las ordinales (dispersión y simetría) y menor aun para para las nominales (solo dispersión).

La exploración también consta de darse cuenta si hay valores extraños (atípicos) en nuestras variables y si tenemos mucha información faltante (valores perdidos).

Para nuestro ejemplo de exploración vamos a utilizar la base de datos “lapop2010″ que contiene la data recogida en Perú por parte del Latin American Public Opinion Project (LAPOP) para el 2010. Este proyecto llevado a cabo por la Universidad de Vanderbilt es un buen referente en la Ciencia Política para los estudios de opinión pública en América Latina. Las ya conocidas comparaciones en base a rankings sobre la afección de las instituciones políticas que nos suelen colocar como los últimos del grupo (por presentar un bajo nivel de confianza en los partidos políticos, el congreso y el poder ejecutivo) están hechas en base a las encuestas que realiza LAPOP anualmente.