Algorithms for Data Science / Brian Steele, John Chandler, Swarna Reddy.
Material type: TextLanguage: English Series: Computer sciencePublisher: Cham : Distributor: Springer International Publishing : Distributor: Imprint: Springer, Copyright date: ©2016Edition: 1ª ediciónDescription: XXIII, 430 páginas : ilustraciones (algunas a color), gráficas ; 23.5 x 15.5 cmContent type:- texto
- sin medio
- volumen
- 9783319833736
- 9783319457970 (ebook)
- 006.312 23
- Q180 .55 .Q36 S74 2016
Item type | Current library | Home library | Collection | Call number | Copy number | Status | Notes | Date due | Barcode | Item holds | |
---|---|---|---|---|---|---|---|---|---|---|---|
Libros para consulta en sala | Biblioteca Antonio Enriquez Savignac | Biblioteca Antonio Enriquez Savignac | COLECCIÓN RESERVA | Q180 .55 .Q36 S74 2016 (Browse shelf(Opens below)) | Ejem.1 | No para préstamo (Préstamo interno) | Ingeniería en Datos e Inteligencia Organizacional | 042746 |
Introduction -- Data Mapping and Data Dictionaries -- Scalable Algorithms and Associative Statistics -- Hadoop and MapReduce -- Data Visualization -- Linear Regression Methods -- Healthcare Analytics -- Cluster Analysis -- k-Nearest Neighbor Prediction Functions -- The Multinomial Naive Bayes Prediction Function -- Forecasting -- Real-time Analytics.
This textbook on practical data analytics unites fundamental principles, algorithms, and data. Algorithms are the keystone of data analytics and the focal point of this textbook. Clear and intuitive explanations of the mathematical and statistical foundations make the algorithms transparent. But practical data analytics requires more than just the foundations. Problems and data are enormously variable and only the most elementary of algorithms can be used without modification. Programming fluency and experience with real and challenging data is indispensable and so the reader is immersed in Python and R and real data analysis. By the end of the book, the reader will have gained the ability to adapt algorithms to new problems and carry out innovative analyses. This book has three parts: (a) Data Reduction: Begins with the concepts of data reduction, data maps, and information extraction. The second chapter introduces associative statistics, the mathematical foundation of scalable algorithms and distributed computing. Practical aspects of distributed computing is the subject of the Hadoop and MapReduce chapter. (b) Extracting Information from Data: Linear regression and data visualization are the principal topics of Part II. The authors dedicate a chapter to the critical domain of Healthcare Analytics for an extended example of practical data analytics. The algorithms and analytics will be of much interest to practitioners interested in utilizing the large and unwieldly data sets of the Centers for Disease Control and Prevention's Behavioral Risk Factor Surveillance System. (c) Predictive Analytics Two foundational and widely used algorithms, k-nearest neighbors and naive Bayes, are developed in detail. A chapter is dedicated to forecasting. The last chapter focuses on streaming data and uses publicly accessible data streams originating from the Twitter API and the NASDAQ stock market in the tutorials. This book is intended for a one- or two-semester course in data analytics for upper-division undergraduate and graduate students in mathematics, statistics, and computer science. The prerequisites are kept low, and students with one or two courses in probability or statistics, an exposure to vectors and matrices, and a programming course will have no difficulty. The core material of every chapter is accessible to all with these prerequisites. The chapters often expand at the close with innovations of interest to practitioners of data science. Each chapter includes exercises of varying levels of difficulty. The text is eminently suitable for self-study and an exceptional resource for practitioners.
Este libro de texto sobre análisis de datos prácticos reúne principios fundamentales, algoritmos y datos. Los algoritmos son la piedra angular del análisis de datos y el punto focal de este libro de texto. Las explicaciones claras e intuitivas de los fundamentos matemáticos y estadísticos hacen que los algoritmos sean transparentes. Pero el análisis de datos práctico requiere algo más que los fundamentos. Los problemas y los datos son enormemente variables y sólo los algoritmos más elementales pueden utilizarse sin modificaciones. La fluidez en la programación y la experiencia con datos reales y desafiantes son indispensables, por lo que el lector se sumerge en Python y R y en el análisis de datos reales. Al final del libro, el lector habrá adquirido la capacidad de adaptar algoritmos a nuevos problemas y realizar análisis innovadores. Este libro consta de tres partes: (a) Reducción de datos: comienza con los conceptos de reducción de datos, mapas de datos y extracción de información. El segundo capítulo presenta la estadística asociativa, la base matemática de los algoritmos escalables y la computación distribuida. Los aspectos prácticos de la informática distribuida son el tema del capítulo sobre Hadoop y MapReduce. (b) Extracción de información a partir de datos: la regresión lineal y la visualización de datos son los temas principales de la Parte II. Los autores dedican un capítulo al dominio crítico de Healthcare Analytics para ofrecer un ejemplo ampliado de análisis de datos prácticos. Los algoritmos y análisis serán de gran interés para los profesionales interesados en utilizar los grandes y difíciles conjuntos de datos del Sistema de Vigilancia de Factores de Riesgo del Comportamiento de los Centros para el Control y la Prevención de Enfermedades. (c) Análisis predictivo Se desarrollan en detalle dos algoritmos fundamentales y ampliamente utilizados, los k-vecinos más cercanos y el ingenuo Bayes. Se dedica un capítulo a la previsión. El último capítulo se centra en la transmisión de datos y utiliza flujos de datos de acceso público procedentes de la API de Twitter y el mercado de valores NASDAQ en los tutoriales. Este libro está destinado a un curso de uno o dos semestres sobre análisis de datos para estudiantes universitarios y de posgrado de la división superior en matemáticas, estadística e informática. Los requisitos previos se mantienen bajos y los estudiantes con uno o dos cursos de probabilidad o estadística, exposición a vectores y matrices y un curso de programación no tendrán dificultades. El material principal de cada capítulo es accesible para todos con estos requisitos previos. Los capítulos suelen ampliarse al final con innovaciones de interés para los profesionales de la ciencia de datos. Cada capítulo incluye ejercicios de distintos niveles de dificultad. El texto es eminentemente adecuado para el autoestudio y un recurso excepcional para los profesionales.
Description based on publisher-supplied MARC data.