Третья неделя курса “Анализ данных и машинное обучение в гидрологии”: материалы

Всем привет!

В понедельник прошли занятия третьей недели моего курса для аспирантов ИВП РАН “Анализ данных и машинное обучение в гидрологии“. Участники не перестают приятно удивлять меня своим энтузиазмом и желанием во всем детально разобраться. Именно стремление учиться новому и непрерывно повышать свою компетенцию является основным фактором, удерживающим молодых ученых в науке – это показали результаты самого масштабного соц.опроса молодых ученых России, который в этом году был проведен силами СМУ РАН и ВШЭ, а сегодня доложен в рамках VII Всероссийского съезда Советов молодых ученых и специалистов “Кадровый вызов для общества знаний”.

Конечно, 5 человек молодых сотрудников из более чем 50-ти возможных участников это очень низкий процент заинтересованности, но если проводить параллели, то эти 10% могут косвенно характеризовать все аспекты современной эффективности Института водных проблем.

Краткое содержание третьей недели занятий:

  1. Лекция:
    • Познакомились с определениями открытых данных (спойлер: государственное определение просто образец канцелярита, полный зашквар);
    • Разобрались что такое открытые данные на самом деле (спойлер: это удаленные сервера и API к базам данных);
    • Посмотрели на то, как могут выглядеть открытые данные здорового человека и курильщика (спойлер: у курильщика все плохо);
    • Разобрались зачем и почему каждый современный ученый должен делать свои исследовательские данные открытыми (спойлер: хватит параноить, вы никому не интересны);
    • Поговорили немного о рецептах приготовления сносных открытых данных (спойлер: если вы когда-нибудь делали большую таблицу в ворде, то вы преспешник дьявола);
    • Посмотрели где взять обычные гидрометеорологические данные национальных служб (по пути выяснив, что Росгидромет не чурается поездок в Женеву на стачки ВМО, но даже ссылку на свой сайт предоставить комиссии не может), а также где можно взять классные данные по стационарам (и не только!);
    • Слайды: 
  2. Практикум:
    • немного запутались с получением обновлений рабочего репозитория (для меня разница между git pull и git fetch до этого момента была неочевидна, поэтому я предложил использовать стандартный pull, который вызвал конфликты слияния и требовал обязательного commit-а, пытаясь уберечь пользователя от потери кода; признаю, что это было ошибкой и для нашей задачи нужно было использовать мягкий и безвредный fetch (что не отменяет команды pull, если вы ведете собственный проект в одиночку));
    • посмотрели как брать данные с удаленного ftp-сервера и что потом можно с ними сделать в pandas, используя только базовый функционал и выдумку;
    • Слайды: 

Следующее занятие, которое пройдет 12-го декабря, будет в этом году последним. Поговорим о том как быть, если вам нужно нарисовать карту не выходя из python.

Все материалы курса вы можете легко найти на гитхабе.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s