R
es un lenguaje de programación enfocado al análisis estadístico,
la computación y los gráficos estadísticos. Corre en plataformas
Linux, Windows y MacOS. El R se distribuye bajo licenciamiento GNU
GPL. La versión a la fecha más reciente es la R 3.4.2 liberada el
2017-09-28.
R
Está basado en otro lenguaje denominado S desarrollado por Bell
Laboratories (antes AT&T, ahora Lucent Technologies) con respecto
del cual tiene algunas mejoras, pero puede considerarse como una
implementación diferente . Hoy en día R es muy utilizado en la
comunidad estadística.
Entre
las librerías que R posee para análisis estadístico y que lo hacen
tan útil para tal fin se cuentan: modelos lineales y no lineales,
pruebas estadísticas clásicas, análisis de series de tiempos,
clasificación, clustering, etc. También tiene técnicas gráficas
y es altamente extensible.
Una
de las fortalezas de R es la facilidad con la que pueden producirse
gráficas bien diseñadas y de alta calidad incluyendo símbolos
matemáticos y formulas donde se necesiten. Se ha tomado mucho
cuidado en los detalles mas finos de las gráficas para que los
defaults produzcan el mejor resultado posible, manteniendo para el
usuario la posibilidad de un control total.
R
tanto como S están formados como un verdadero lenguaje de
programación y permiten que los usuarios agreguen funcionalidades
adicionales al definir nuevas funciones.
Mucho
del sistema en sí es desarrollado en el dialecto R de S, el cual
hace fácil para los usuarios seguir los esquemas algorítmicos.
El
ambiente R
R
es una suite integrada de de herramientas de software para
manipulación de datos, cálculos y despliegue gráfico. Entre estas
tenemos:
- Una efectiva librería de manipulación de datos y almacenamiento
- Una suite de operadores para cálculos en arreglos y en particular matrices.
- Una grande y coherente colección integradas de herramientas intermedias para análisis de datos.
- Librerías gráficas para análisis de datos y despliegue, ya sea en pantalla o impreso.
- Un bien desarrollado, imple y efectivo lenguaje de programación que incluye condicionales, loops, funciones de usuario recursivas y librerías de entrada y salida.
R
es generalmente considerado como un sistema estadístico. Desde el
seno del proyecto R se proyecta un enfoque de un ambiente dentro del
cual se implementan técnicas estadísticas. R puede extenderse
fácilmente usando paquetes (packages). Hay como ocho paquetes
suministrados con la distribución R y muchos más disponibles en la
familia de sitios web CRAN que cubren un amplio rango de estadísticas
modernas. R tiene su propio formato de documentación estilo LaTeX,
que se utiliza para suministrar documentación comprehensiva tanto
online en una serie de formatos como en impresión
Ejemplos
de R
Lectura de Datos
sep
especifica el separador de los datos que es una coma para los
archivos CSV.
header
indica si la primera fila contiene los nombres de las columnas de
datos.
El
primer argumento contiene el nombre del archivo. En este caso
file.choose permite abrir un dialogo
INDEXAR DATA FRAMES
Obtener
una columna específica
Se
puede usar el nombre de la columna como un string entre brackets
tbl["POPESTIMATE2009"]
También
se puede usar el nombre de la columna
tbl[17]
Obtener
una columna como una lista
tbl$POPESTIMATE2009
Se
puede usar el signo $ para esto
[1] 307006550 55283679 66836911 113317879 71568081 4708708 698473 [8] 6595778 2889450 36961664 5024748 3518288 885122 599657 [...]
Buscar filas y columnas específicas
Aquí
la tabla será tratada como una matriz bidimensional
Para
obtener las cinco primeras filas de la tabla de población
population[1:5,] # Primero las filas, luego las columnas
[1] 307006550 55283679 66836911 113317879 71568081
La
coma después de la información de fila indica que queremos todas
las columnas,
en
este caso también pudimos haber escrito [1:5,1] porque solo tenemos
una columna en población. Miremos estos datos de las primeras 5 filas en la columna población
[1] 307006550 55283679 66836911 113317879 71568081
Estos son valores muy grandes para ser
valores de población para los Estados de Estados Unidos y de otras
regiones censadas. Estos son el total de la población censada y las
de las regiones censadas, Noreste, Medio-oeste, sur y Oeste.
Como sólo estamos interesados en los Estados podemos eliminarlos de la siguiente manera:
Como sólo estamos interesados en los Estados podemos eliminarlos de la siguiente manera:
population[-1:-5,]Números negativos en indices de matriz pueden usarse para omitir filas o columnas específicas.
Una pequeña equivalencia del código
También se puede extraer la columna de población a la vez que se remueven las filas multi-estado. Remplacemos
population <- population="" pre="" print="" summary="" tbl="">print(summary(tbl[-1:-5,"POPESTIMATE2009"]))-><- population="" pre="" print="" summary="" tbl=""> con -><- population="" pre="" print="" summary="" tbl="">summary(1:10)-><- population="" pre="" print="" summary="" tbl="">La función summary
summary calcula una serie de valores basados en los datos pasados como primer argumento. Los valores exactos calculados dependen de la clase de los datos -><- population="" pre="" print="" summary="" tbl="">Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 3.25 5.50 5.50 7.75 10.00->
No hay comentarios.:
Publicar un comentario