Мы долго и разными способами выстраивали процесс очистки, предобработки и сохранения больших данных для работы аналитической службы, пока не открыли для себя эффективный, ясный и недорогой стек технологий в Amazon Web Services, удобный в разных сценариях. В начале расскажем о наших интенсивных экспериментах с ClickHouse/PowerBI/MySQL, плюсах и минусах подхода. Затем поговорим, как мы начали хранить сырые данные в Amazon S3 и почему их предобработка в формат Apache Parquet с разумным шардированием так кардинально повлияла на возможности аналитиков и других подразделений компании и так сильно удешивила работу с bigdata. Остановится на типах сжатия больших данных и тонкостях их многопоточной обработки и сделаем правильные выводы. Расскажем, почему нам так нравится предобработка и фильтрация данных в Amazon Glue (на базе Apache Spark) и почему мы так активно используем Amazon Athena (на базе Presto) в связке с аналогом Apache Hive для SQL-выборок из нашего Data Lake в s3. Технологий для работы с большими данными немало, но выбрать эффективный и лаконичный, быстрый и недорогой стек - непростая задача, но, как мы считаем, у нас получилось и мы с удовольствием поделимся опытом!
Выступление прошло в зале Тютина и входило в трек Infrastructure (Dev)
Слайды: https://bit.ly/2SP8WKv
Выступление прошло в зале Тютина и входило в трек Infrastructure (Dev)
Слайды: https://bit.ly/2SP8WKv
- Категория
- Продажа Сайтов и Доменов

Комментариев нет.