ViMaSys: Introduccion al lenguaje R

R es un lenguaje de programación enfocado al análisis estadístico, la computación y los gráficos estadísticos. Corre en plataformas Linux, Windows y MacOS. El R se distribuye bajo licenciamiento GNU GPL. La versión a la fecha más reciente es la R 3.4.2 liberada el 2017-09-28.

R Está basado en otro lenguaje denominado S desarrollado por Bell Laboratories (antes AT&T, ahora Lucent Technologies) con respecto del cual tiene algunas mejoras, pero puede considerarse como una implementación diferente . Hoy en día R es muy utilizado en la comunidad estadística.

Entre las librerías que R posee para análisis estadístico y que lo hacen tan útil para tal fin se cuentan: modelos lineales y no lineales, pruebas estadísticas clásicas, análisis de series de tiempos, clasificación, clustering, etc. También tiene técnicas gráficas y es altamente extensible.

Una de las fortalezas de R es la facilidad con la que pueden producirse gráficas bien diseñadas y de alta calidad incluyendo símbolos matemáticos y formulas donde se necesiten. Se ha tomado mucho cuidado en los detalles mas finos de las gráficas para que los defaults produzcan el mejor resultado posible, manteniendo para el usuario la posibilidad de un control total.

R tanto como S están formados como un verdadero lenguaje de programación y permiten que los usuarios agreguen funcionalidades adicionales al definir nuevas funciones.

Mucho del sistema en sí es desarrollado en el dialecto R de S, el cual hace fácil para los usuarios seguir los esquemas algorítmicos.

El ambiente R

R es una suite integrada de de herramientas de software para manipulación de datos, cálculos y despliegue gráfico. Entre estas tenemos:

Una efectiva librería de manipulación de datos y almacenamiento
Una suite de operadores para cálculos en arreglos y en particular matrices.
Una grande y coherente colección integradas de herramientas intermedias para análisis de datos.
Librerías gráficas para análisis de datos y despliegue, ya sea en pantalla o impreso.
Un bien desarrollado, imple y efectivo lenguaje de programación que incluye condicionales, loops, funciones de usuario recursivas y librerías de entrada y salida.

R es generalmente considerado como un sistema estadístico. Desde el seno del proyecto R se proyecta un enfoque de un ambiente dentro del cual se implementan técnicas estadísticas. R puede extenderse fácilmente usando paquetes (packages). Hay como ocho paquetes suministrados con la distribución R y muchos más disponibles en la familia de sitios web CRAN que cubren un amplio rango de estadísticas modernas. R tiene su propio formato de documentación estilo LaTeX, que se utiliza para suministrar documentación comprehensiva tanto online en una serie de formatos como en impresión

Ejemplos de R

Lectura de Datos

read.table puede leer una variedad de formatos de datos básicos en tablas o “data frames” .

sep especifica el separador de los datos que es una coma para los archivos CSV.

header indica si la primera fila contiene los nombres de las columnas de datos.

El primer argumento contiene el nombre del archivo. En este caso file.choose permite abrir un dialogo

INDEXAR DATA FRAMES

Obtener una columna específica

Se puede usar el nombre de la columna como un string entre brackets

tbl["POPESTIMATE2009"]

También se puede usar el nombre de la columna

tbl[17]

Obtener una columna como una lista

tbl$POPESTIMATE2009

Se puede usar el signo $ para esto

[1] 307006550  55283679  66836911 113317879  71568081   4708708    698473
[8]   6595778   2889450  36961664   5024748   3518288    885122    599657
[...]

Buscar filas y columnas específicas

Aquí la tabla será tratada como una matriz bidimensional

Para obtener las cinco primeras filas de la tabla de población

population[1:5,]  #  Primero las filas, luego las columnas

[1] 307006550  55283679  66836911 113317879  71568081

La coma después de la información de fila indica que queremos todas las columnas,

en este caso también pudimos haber escrito [1:5,1] porque solo tenemos una columna en población. Miremos estos datos de las primeras 5 filas en la columna población

[1] 307006550  55283679  66836911 113317879  71568081

Estos son valores muy grandes para ser valores de población para los Estados de Estados Unidos y de otras regiones censadas. Estos son el total de la población censada y las de las regiones censadas, Noreste, Medio-oeste, sur y Oeste.

Como sólo estamos interesados en los Estados podemos eliminarlos de la siguiente manera:

population[-1:-5,]

Números negativos en indices de matriz pueden usarse para omitir filas o columnas específicas.

Una pequeña equivalencia del código

También se puede extraer la columna de población a la vez que se remueven las filas multi-estado. Remplacemos

population <- population="" pre="" print="" summary="" tbl="">
print(summary(tbl[-1:-5,"POPESTIMATE2009"]))
<- population="" pre="" print="" summary="" tbl="">
con

<- population="" pre="" print="" summary="" tbl="">summary(1:10) 
<- population="" pre="" print="" summary="" tbl="">
La función summary 

summary
calcula una serie de valores basados en los datos pasados como primer
argumento. Los valores exactos calculados dependen de la clase de los
datos

<- population="" pre="" print="" summary="" tbl="">
 Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1.00    3.25    5.50    5.50    7.75   10.00

ViMaSys

GTag

Introduccion al lenguaje R

Lectura de Datos

INDEXAR DATA FRAMES

Buscar filas y columnas específicas

Una pequeña equivalencia del código

La función summary

No hay comentarios.:

Publicar un comentario

Perfil

Entradas populares