От перфолент до облака: эволюция хранения данных
Мы уже привыкли, что фотки, документы и видео можно просто кинуть в облако и забыть. Гигабайты информации утекают в интернет незаметно для нас. Но так было не всегда. Путь к современным SSD и облачным хранилищам был долгим и местами очень странным. Вспомним, через что пришлось пройти человечеству, чтобы сейчас мы могли хранить тысячи селфи и фоток котиков в кармане.
Часть 1. Бумажное прошлое: дырокол как главный инструмент программиста
Всё началось с обычной бумаги и дырок, а именно перфоркарт. Это такие картонные прямоугольники с отверстиями. Набор дырок в нужных местах означал команду для машины. По сути, первый код писали не пальцами по клавиатуре, а пробивали дыроколом.
Концепцию придумали еще в XVIII веке. Француз Жозеф Мари Жаккар догадался использовать перфорированные карты в ткацком станке. Карты управляли нитями, и станок сам плел узоры. Это был первый в истории программируемый станок.
Источник: wikipedia.org
Позже англичанин Чарльз Бэббидж хотел прикрутить эту идею к своему изобретению — «Аналитической машине» (прообразу компьютера). Увы, проект так и остался на бумаге — технологии XIX века не позволяли собрать такую сложную конструкцию.
А вот американец Герман Холлерит в 1890 году провернул гениальную аферу. Ему нужно было быстро обработать данные переписи населения. Ручной подсчет занял бы более 7 лет. Холлерит засунул данные в перфокарты и прогнал их через свою электрическую машинку. Результаты получили через два года. Так статистики впервые подружились с автоматизацией.
Минус карт был очевиден: они занимали тонны места. Одна карточка вмещала всего 120 байт. Чтобы сохранить одно фото с современного смартфона (около 3–5 МБ), понадобилась бы стопка таких карт высотой с человеческий рост.
Позже на смену карточкам пришли перфоленты — длинные бумажные ленты с отверстиями. Их использовали в телеграфах и на заводах для управления станками. В Советском Союзе перфолента вообще стала символом технического прогресса — ее рисовали на плакатах и значках.
Часть 2. Эпоха магнетизма: катушки, бобины и шкафы весом в тонну
Бумага — штука ненадежная. Рвется, горит, занимает место. На смену пришел магнетизм.
В 1898 году датчанин Вальдемар Поульсен изобрел «телеграфон» — он записывал звук на стальную проволоку с помощью электромагнита. Работало, мягко говоря, не очень, но идея была подана.
Источник: wikipedia.org
В 1930-х немцы довели до ума магнитную ленту. Сначала на нее писали музыку, а потом сообразили, что можно хранить и данные. Одна катушка вмещала до 2 МБ. По тем временам — прорыв.
Магнитные ленты правили бал до 1970-х. Но у них был огромный недостаток: чтобы найти конкретный кусочек информации, нужно было мотать ленту вперед-назад. Долго и уныло.
В 1956 году IBM показала миру первый в истории жесткий диск — IBM 350. Это был монстр. Представьте себе огромный шкаф весом в тонну, внутри которого крутятся 50 алюминиевых пластин диаметром 24 дюйма (как две большие тарелки). Вся эта махина хранила 4,4 мегабайта. Одна современная mp3-песня весит больше, чем первый в истории винчестер. Но тогда это казалось чудом инженерной мысли.
Источник: wikipedia.org
Часть 3. Оптика: эра болванок и лазеров
В 80-е годы компании Philips и Sony выпустили компакт-диск (CD), туда помещалось уже 700 МБ.
Потом придумали DVD — емкость выросла до нескольких гигабайт. Мир получил возможность записывать фильмы и массово обмениваться ими с друзьями.
Источник: wikipedia.org
Часть 4. Флеш-память: маленькая, быстрая, удобная
В 1984 году японская Toshiba изобрела флеш-память. Название происходит от английского flash («вспышка») — процесс стирания данных действительно напоминал мгновенную очистку.
Сначала карты памяти были размером со спичечный коробок, потом уменьшились до microSD. Их стали использовать везде: в фотоаппараты, телефоны, плееры.
А в конце 90-х появились USB-флешки. Вот это была магия! Никаких дисководов, никаких дискет — воткнул в любой компьютер, и данные твои. Компактно, надежно, удобно.
Источник: wikipedia.org
Часть 5. SSD: когда скорость решает всё
Твердотельные накопители (SSD) придумали еще в 1978 году, но долгое время они стоили космических денег. Сейчас без SSD компьютер даже не собирают — старые жесткие диски слишком медленные для современных задач.
SSD не шумят, не вибрируют, работают в разы быстрее. Их ставят везде: от игровых компьютеров до мощных серверов.
Источник: wikipedia.org
Часть 6. Облака: все в одной куче, но где-то там
Идея хранить данные не у себя, а в удаленном доступе, появилась еще в 60-х годах прошлого века. Управление перспективных исследовательских проектов (DARPA) финансировало проект, который позволял нескольким пользователям работать на одном компьютере одновременно.
Через шесть лет после первых экспериментов компании Bell Laboratories и General Electric создали операционную систему Multics. Она уже умела главное: позволяла нескольким пользователям работать с файлами одновременно и не бояться, что кто-то случайно (или намеренно) всё поломает. В общем, появились зачатки того, без чего мы сейчас не представляем работу — совместный доступ и защита данных.
Вскоре подтянулся Кен Томпсон из Bell Labs и сделал первую версию UNIX. UNIX стал эталоном многопользовательских систем и прародителем всего, на чем сейчас сервера и работают.
Параллельно в середине 60-х начала развиваться идея виртуализации, то есть программы научили работать независимо от конкретного железа. Тогда это казалось каким-то колдунством, а сегодня без этого никакого «облака» бы просто не случилось.
Настоящий прорыв случился уже в нулевых. К тому моменту интернет стал массовым, появились первые облачные провайдеры и файловые хранилища, до которых можно было достучаться из любого угла. От перфокарт, вмещавших смешные по нынешним меркам 120 байт, мы дошли до терабайтов на удаленных серверах. И цифры продолжают расти: например, в Рег.облаке сегодня хранится уже больше 1,6 петабайт данных — и это только то, что можно посчитать.
С ростом объемов, конечно, выросли и требования. Мало просто сложить файлы в кучу — нужно, чтобы это хозяйство не падало, легко расширялось и работало быстро. Поэтому сейчас на первые роли выходят объектные СХД (системы хранения данных). У них нет тех проблем, которые есть у классических файловых систем: они нормально переваривают и гигабайты, и терабайты данных. S3-хранилище Рег.облака, например, позволяет хранить данные вообще почти без ограничений.
А что дальше?
Ученые не сидят на месте и ищут новые способы хранения информации. Варианты предлагаются футуристические: алмазные накопители, хранение в ДНК или кварц.
Но пока самым доступным и удобным способом остается облако в связке с хорошим SSD или классическим жестким диском. Так что старые флешки с фотографиями десятилетней давности выбрасывать пока рано. Пусть лежат, греют душу.
А у вас где хранятся самые ценные данные? В облаке или на полке с дисками?
Реклама ООО «РЕГ.РУ», ИНН: 7733568767
ВАШИ ДАННЫЕ В ОБЛАКЕ ВАМ НЕ ПРИНАДЛЕЖАТ
Мы живем в эпоху сладких инэтных иллюзий. Нам красиво упаковали и продали сказку под названием "Облако". Звучит-то как! Мягко, надежно, возвышенно, эдакий сейф, парящий в атмосфере, хотя точнее, в стратосфере. На деле же... это просто чей-то пыльный , чахлый пк в чужом гараже, владельцу которого абсолютно плевать на ваши данные. И главными разрушителями этой иллюзии, амбассадорами!))) корпоративного позора стали Myspace.
Давайте вспомним 2019 год. Крупная IT-компания с невинным лицом провинившегося школьника выходит к прессе и заявляет: "Ребят, мы тут серверы переносили и.. упс! Случайным образом стерли 50 миллионов песен. Всё то, что вы выкладывали за 12 лет. Ну, бывает, неудачная попытка переезда, ошибка программы!".
Масштаб абсурда огромный... Представьте ту трагедию на личном уровне: вы ночами сидите над музлом этим, сводите треки, полируете альбом или микстейп, не важно (или воруете), готовитесь к дистрибуции... А потом какой-то "эффективный" (деф...ый) менеджер решает, что жесткие диски с творчеством пользователей потребляют слишком много электричества. Десятилетие культуры просто исчезает в никуда.
Верить в то, что в Myspace сидели исключительно некомпетентные клоуны, которые в 2019 году не знали слова бэкап, значит не уважать самого себя. Очевидно, что это был бизнес план, поданный со стороны идиота.
Подумайте сами, тратить миллионы долларов на перенос терабайтов мертвых муз.файлов(или фото), которые приносят ноль рублей прибыли? Ни за что!
Постоянно рисковать получить гигантский иск от крупных лейблов за нарушение авторских прав, скрытых в тысячах любительских ремиксов? Пфф...
Гораздо проще нажать кнопку удаления и сказать: "Ой, мы всё сломали." Идеальное преступление, где орудием убийства стала искусная имитация собственной технической импотенции. Быть дурачком дешевле и безопаснее, чем быть корпоративным злодеем. Многие говорят... Инцидент с Myspace просто исторический анекдот.
Но я склонен, считать, что это надгробный камень всей концепции 'в интернете ничего не пропадает'. Пропадает. И ещё как.
Жадность компаний всегда будет превосходить архивную ценность, особенно в контексте обычных никому не нужных "творцов".
Вообще. Когда ваши файлы перестанут быть рентабельными, вы даже не услышите клика удаляющего ваши "личные архивы" сисадмина.
Как то так.
Так что, когда в следующий раз Яндекс Диск и т.п. пришлют вам уведомление об изменении условий тарифа, ваш личный архив жив ровно до тех пор, пока он окупает электричество на сервере.
В 2019 году лохами оказались майспесовцы-музыканты. А завтра? Кто знает.
Источники:
Стандартные отклонения (2)
Продолжаем знакомиться с книгой Гари Смита.
Все части выложены в серии.
Что посеешь, то и пожнёшь
Коротко для ЛЛ: К сбору данных нужно относиться ответственно. Чтобы добиться корректного сравнения, нужно сравнивать случайно отобранные группы, а не кружки по интересам. Нельзя искать рецепт успеха, спрашивая лишь тех, кто его добился. Также не стоит снимать со счетов личный интерес собравшего статистику.
Не стоит ожидать от самого лучшего компьютера чудес на выходе, если на входе снабжать его мусорными данными. Если мы попросим сделать его что-нибудь глупое, он справится с задачей. Garbage in, garbage out: что посеешь, то пожнёшь.
Иллюстрировать этот принцип можно долго. Автор рассказывает о сравнении процента студентов, которые смогли защититься, между двумя университетами. Стоит ли принимать меры, если в одном университете до диплома доходят 90% студентов, а в другом – всего 40%? Взять и сделать первый университет дешевле, чтобы туда шло больше студентов? Казалось бы, да, но нет. Дело в том, что в университет не поступают по жребию. Каждый абитуриент знает свои способности и сообразно им делает свой выбор. Они сортируются уже до поступления, и потому сравнивать проценты смысла не имеет. В статистике это называется смещением самоотбора – self-selection bias.
Со студентами было связано ещё одно исследование, посвящённое влиянию посуды на дозу принятого алкоголя. Профессор Скотт Геллер пришёл к выводу в 1984 году, что студенты, заказывавшие пиво кружками, а не стаканами, в конечном счёте больше выпивали. Ему не пришло в голову, что если человек заказывает целую кружку, он изначально планирует нажраться. Вот если бы всем разносили дозу по жребию – тогда было бы другое дело. Но такая логика в баре не работает. Но, несмотря на это, Стэнфордский университет запретил в 2016 году большие бутылки с крепким алкоголем в студенческих общежитиях.
Из той же оперы сообщения о том, что женатая жизнь хороша для сердца. Определили это, сравнивая здоровье женатых и холостяков. Но не учли при этом, что кто-то не может жениться именно из-за плохого здоровья.
Не стоит доверять данным, полученным из опросов популярных СМИ. Во-первых, опросник дойдёт не до всех подряд, а лишь их читателей или зрителей. А во-вторых, далеко не всякий возьмёт на себя труд заполнить и отослать анкету. Я могу проиллюстрировать это отзывами на маркетплейсе, где часто можно увидеть непропорционально много негатива по той причине, что тот, кто доволен, не станет автоматом строчить отзыв, в отличие от. Если опрос длинный и нудный, то чаще всего результатом становятся экстремальные мнения. Просто потому, что это стоит усилий.
Проблемы с исходными данными возникают при так называемой ошибке выжившего. Классическим примером является стремление английских конструкторов улучшить бронирование своих самолётов во время Второй мировой войны. Весь самолёт усилить было не вариант, пришлось выбирать самые уязвимые места. Найти их предполагалось путём анализа повреждений самолётов, вернувшихся с задания.
Если взглянуть на рисунок, то первой идеей будет укрепить там, где максимальное количество пробоин. На самом же деле статистику нужно собирать со всех, а те самолёты, которые не вернулись из полёта, в этой статистике не участвуют. А возвращаются как раз выжившие, так что укреплять нужно в первую очередь места без пробоин.
Много места в исследованиях всяческого рода находит поиск рецепта разбогатеть. Наполеон Хилл продал 100 миллионов экземпляров своей книжки Думай и богатей, в которой он поместил беседы с 45 миллионерами. В девяностых годах вышла ещё одна книжка, авторы которой тоже обещали раскрыть «удивительные секреты богачей-американцев». Секреты предполагалось раскрывать путём рассылки опросника на восемь страниц с обратным конвертом и одним долларом в придачу на адрес трёх тысяч американцев, проживающих в элитных районах. Трудно представить себе, что один доллар побудить миллионера заполнить длинную анкету, но всё-таки авторы получили 1115 ответов, и 385 из них были от миллионеров. Здесь мы имеем дело всё с той же самой ошибкой выжившего. Нельзя делать это в ретроспективе. Правильно было бы идентифицировать характеристики заранее, а потом сравнивать две группы по прошествии времени. Ведь в противном случае мы не имеем дела с неудачниками, которые действовали так же, как и «уцелевшие» миллионеры.
Автор книги От хорошего к великому Джим Коллинз делает ту же ошибку: его команда истратила пять лет, изучая сорокалетнюю историю 1435 компаний и определяя лучших. У 11 «победителей» определили несколько общих характеристик, каждой из которых дали броское имя. На самом деле нужно было вернуться в начало сорокалетнего периода, который исследовал Коллинз, и взять компании, которые существовали на тот момент времени во всей их совокупности. А затем проследить за их судьбой, исходя из вероятных критериев успеха. Кто-то из них неизбежно сойдёт со сцены за сорок лет. Ну а если мы будем смотреть в прошлое успешных фирм, то всегда сможем найти что-то общее. Например, одинаковые буквы в названии. Ну а так – сегодня можно констатировать из одиннадцати победителей Коллинза двое уже обанкротились с момента выхода книжки. Акции пятерых выросли лучше, чем средний курс по бирже, а шестерых – хуже. Автор отмечает, что весь жанр рецептов успеха страдает ошибкой выжившего. Нужно предсказывать будущее, а не смотреть в прошлое.
Иногда очень трудно сравнивать варианты в будущем. Например, если спрашивать пациентов, которым поменяли сустав, то большинство из них говорит, что после стало лучше, чем до. А может быть, это психосоматика? А что было бы, если бы оставили старый сустав? Если делать по уму, то половине пациентов надо давать плацебо, а другую половину – оперировать, а потом сравнивать. Но ведь человек непременно будет знать, что его прооперировали! Однако нашлись доктора, которые придумали решение. Вместо плацебо они делали вид, что поменяли сустав: давали пациенту наркоз, кололи препараты, резали кожу и так далее, и тому подобное. И оказалось, что те, которым сустав не меняли, не чувствовали себя впоследствии хуже других.
Когда делается рандомизированное контрольное испытание (РКИ), все смотрят на получившееся значение вероятности p, которая описывает возможное случайное стечение обстоятельств. Однако часто возникает другой очень интересный вопрос: является ли обнаруженный эффект достаточно сильным, чтобы иметь практическое значение? Например, при исследовании одной из вакцин против гриппа был несомненно обнаружен эффект с p=0,00000002%. Солидно! Но что толку, если эта вакцина снижает среднее количество заболеваний с 2,1 до 1,6?
Известно, что желание получить нужный результат часто сказывается на самом результате. При этом не гнушаются манипуляций. Автор рассказывает историю калифорнийского городка Темекула, где одна компания вознамерилась построить карьер. Эти парни наняли экономиста, который насчитал 172 миллиона ежегодной прибыли с нулевыми убытками для города. Лепота!
Однако выяснилось, что 150 миллионов из этой суммы – это прибыль самой компании, а остальное – зарплата сотни рабочих, и это не новые рабочие места, поскольку постройка карьера в одном месте отменяет необходимость постройки в другом. Так что это не убытки, а прибыль для города оказалась нулевая. Эта компания имела притом наглость утверждать, что при новом карьере в городе подорожает недвижимость. Ну, технически они были правы. Недвижимость имеет свойство дорожать при росте населения. Вот только перед подорожанием она сначала резко упадёт в цене, как только построят карьер. Короче, ничего у них не вышло, предложение было отвергнуто.
Как видим, за хорошую цену найдутся желающие, которые найдут подтверждение любому абсурду и преподадут этот абсурд нам, не моргнувши глазом. Предвзятость подтвержденияthtп во всей своей красе.
Никому нельзя верить на слово. Чем провокационнее заявление – тем больше должен быть наш скептицизм. Часто выясняются примитивные ляпы, которые влетают в огромные деньги. Космическая миссия Mars Climate Orbiter, стоимостью в 300 миллионов долларов, потерпела неудачу в 1998 году по причине того, что инженеры забыли пересчитать фунты в секунду в ньютоны, так что зонд подлетел слишком близко к Марсу и сгорел в его атмосфере.
Или вот ещё случай: американский филиал знаменитого банка JP Morgan просадил от 5 до 10 миллиардов из-за того, что неправильно рассчитал риски вложений. Программист забыл при расчёте среднего разделить на число случаев. Среднее между 6 и 10 у него было 16.
Ляпов хватает и у учёных. Нашумевшее в своё время исследование Рейнхарт и Рогоффа о влиянии степени задолженности страны на экономический рост послужило основанием для введение программ экономии в разных странах. Ведь Соединённых Штаты как раз превысили тот самый порог в 90% ВВП, после которого начинается предполагаемый вред. Но когда одного студента-статистика попросили воспроизвести это исследование, у того ничего не получалось, как он ни пытался. Он обратился к самим Рейнхарт и Рогоффу, и те после долгого отмалчивания снабдили всё-таки его их исходными данными. В которых он и нашёл ошибку: область суммирования в таблице стран не была дотянута до последней строчки, так что из сравнения «хороших» и «плохих» стран-должников оказались исключены многие хорошие. Более того, выяснились и другие несоответствия. 19-летний период высокого долга у Великобритании имел тот же вес, что и однолетний период в Новой Зеландии. Короче, если мы посчитаем всё, как надо, то получится, что в период высокой задолженности экономика стран не падала в среднем на 0,1%, а росла на 2,2%.
Как видно из графика, чёткой связи для значений госдолга выше 90% ВВП не существует. Кто-то справляется, кто-то нет. Более того, кто сказал, что высокий долг влияет на рост, а не наоборот? Корреляция не означает причинной связи. Так что граждан заставляли затягивать пояса безосновательно. Сбор позднейших данных опроверг выводы Рейнхарт и Рогоффа. После кризиса 2008 года степень задолженности многих стран превысила пороговое значение 90%. США достигли 122% в 2024 году. И поди ж ты, продолжают пользоваться плодами экономического роста.
Ещё одним политизированным примером является исследование влияния абортов на преступность. Модный экономист Стивен Левитт, автор явно переоцененной Фрикономики, утверждал, что легализация абортов в США существенно снижает уровень преступности. Он аргументировал, что родившиеся нежелательные дети в неблагополучных семьях не получают достаточно заботы и становятся преступниками. Он упирал на то, что через 18 лет после легализации абортов в стране наблюдался пик числа убийств. Реальная история заключается в том, что в начале девяностых число убийств выросло для всех возрастных групп. После тщательной проверки статьи Левитта в ней нашли массу недочётов, начиная с неправильного датирования, через игнорирование роста населения и заканчивая упущением в учёте годовых изменений в статистике разных штатов. После исправления всех ошибок оказалось, что легализация абортов если и повлияла на преступность, то в сторону усиления.
Про ошибку самоотбора рассказывал в своей книжке Алекс Эдманс, а про ошибку выжившего – Кит Йейтс. Что меня удивило в этих авторских примерах – что подобные ошибки столь распространены, их делает практически каждый. И это огорчает.
Стандартные отклонения (1)
Сегодня надежды очень многих связаны с нежным цветком искусственного интеллекта, растущем на громаде Больших данных. Делаются регулярные прогнозы, что Большие языковые модели скоро превзойдут человека, да что там превзойдут, уже превзошли. Разработку ИИ сравнивают с такими достижениями человека, как огонь, колесо и электричество. Абсурд! Нейросеть тупа, как валенок и не понимает связи данных и реального мира. Сегодня реальная опасность не в том, что компьютер нас перегонит, а в том, что мы, уверенные в его превосходстве, сами предоставим ему свободу действий там, где он не разбирается. Человек – вот кто имеет опыт, мудрость, здравый смысл и критическое мышление. Эти качества нам помогут найти значение в грудах данных. Нужно только захотеть. Чего нам может не хватать – это знания того, как уберечься от ошибок. Это знание обещает дать нам американский профессор-экономист Гари Смит.
Что будет, если достаточно долго пытать данные
Коротко для ЛЛ: Если достаточно долго пытать данные, они признаются. Подобное занятие любят очень многие учёные, стремясь нарыть какую-нибудь закономерность. И, надо сказать, они имеют успех.
Многие из нас помнят о знаменитом осьминоге Пауле, который успешно предсказал предсказал результаты восьми финальных матчей Кубка мира по футболу 2010 года. Всякий раз он брал еду из кормушки, помеченной флагом победившей впоследствии команды. Конечно, головоногим не откажешь в определённом интеллекте, но никому в голову не придёт предположить, что они разбираются в футболе. Что помогло Паулю делать выбор – это его зрение. Не сказать, чтобы оно было очень хорошим. Он и цветов-то не различал. Но зато известно, что осьминогов привлекают горизонтальные формы. И надо сказать, что флаги стран, которые побеждали во всех этих матчах – Германии, Сербии и Испании – состоят из горизонтальных горизонтальных полос. А может быть, ему по каким-то причинам понравился флаг Германии, которая была фаворитом большинства этих матчей.
Хотя кто знает – быть может, в его окружении нашёлся кто-то, кто страдал от избытка свободного времени и решил развлечься. Так тоже уже случалось. Горила Канда из зоопарка Далласа угадал исход девяти матчей NFL из четырнадцати – вполне солидный результат. Или дельфин Минди из Миннесоты: тот тоже успешно предсказывал NFL, выбирая куски плексигласа с лого команды-победителя. Проблема, правда, в том, что в новости попадают те животные, у которых что-то получилось с прогнозами. Всех остальных неудачных предсказателей сразу забывают.
Человек устроен так, что всегда ищет закономерности в картине окружающего мира. Эта способность помогла нашим предкам выжить и размножиться в неблагоприятных условиях. Но в современном мире она стала приносить проблемы. Мы делаем плохо обоснованные выводы, хватаемся за любые подтверждения и отбрасываем неудобные данные. Когнитивные искажения делают нас уязвимыми перед всякого рода статистическими обманами. Всё оттого, что мы постоянно пытаемся понять окружающий мир.
На это накладывается стремление многих авторов во что бы то ни стало сделать карьеру на волне хайпа. Publish or perish – публикуйся или умри. В ход идут сомнительные средства вроде фабрикации данных. Можно вспомнить Эндрю Уэйкфилда, который публиковал в известных журналах научные статьи о связи вакцинации с аутизмом. Мало кого смущало тогда, что его исследование базировалось лишь на 12 случаях. Но стали выясняться несоответствия и явный подлог: пятеро детей из тех двенадцати имели проблемы уже до вакцинации, а потом оказалось, что Уэйкфильд собирался распространять свою собственную вакцину против кори. Его теорию в конце концов опровергли, но опровержение не получило такого распространения, как изначальный хайп. Так что антипрививочники остались, и многие родители по-прежнему боятся прививать своих детей.
Голландский учёный Дидерик Штапель тоже добился известности своими провокационными исследованиями, и тоже потом выяснился мухлёж в его данных. Последовало увольнение, отказ от докторской степени и отзыв полусотни трудов. Или взять директора Института Парапсихологии Уолтера Леви: тот исследовал способность эмбрионов в куриных яйцах включать обогрев в инкубаторе. Коллеги не поверили в этот бред и установили наблюдение. Так и оказалось: Леви манипулировал своим оборудованием для того, чтобы поднять вероятность выше статистических 50%.
В поиске закономерностей исследователю нужно доказать, что его результат не вызван случаем. Для этого он рассчитывает вероятность случайного совпадения p, и очень желательно, что она окажется достаточно низкой. Хотя бы не выше 5%. Кстати, осьминог Пауль добился этих пяти процентов. В отличие от многих учёных, которым приходится поднимать статистическую значимость сомнительными методами, которые называют p-hacking или подгонкой данных. Нобелевский лауреат Рональд Коуз как-то цинически заметил на этот счёт:
Если вы пытаете данные достаточно долго, то они признаются.
Можно не подгонять, а просто искать какую-нибудь закономерность в том, что есть. Это называется HARKing – постановка гипотезы после того, как результаты уже получены. То есть, мы не проверяем поставленную заранее гипотезу данными, а наоборот – пытаемся нарыть её в статистике.
Излишне будет сказать, что повторить подобный мухлёж часто очень трудно. Сегодня говорят о кризисе воспроизводства исследований, и этот кризис затронул почти все отрасли науки.
В 2010 году появился новый лайфхак: достаточно попрактиковаться в какой-нибудь сильной позе (типа руки в боки), чтобы почувствовать себя более сильным и продуктивным. Да чего почувствовать – стать им! Позитивный настрой, как известно, окрыляет. Эту идею продвигало трое учёных в своей статье. Они провели исследование с 42 добровольцами. Постоял, упершись руками в стол – и пошёл тестостерончик, а кортизол, наоборот, снизился. И да, p получилась 5%, вот так. Вот только воспроизвести их результат не получалось никак. Не то что гормоны – поведение не менялось. В 2016 году ведущему автору Дане Карни пришлось дезавуировать свою идею. Также она призналась, что им пришлось «играться» с числом участников, чтобы получить вероятность в 5%.
Ещё одним примером вольного обращения с данными может послужить работа психолога Джона Готтмана, который предсказывал развод у супругов на основании анализа их разговоров и мимики. Он делал видеозапись, анализировал её, а потом ждал 6 лет. После чего сравнивал тех, кто развелись, с теми, кто не развёлся. Если вы не знали до сего дня, что такое HARKing – вот оно, в чистом виде. Похоже, он не удосужился даже спрогнозировать будущие разводы при помощи своей модели, а смотрел только в прошлое. Неудивительно, что модель не выдержала проверки свежими данными.
Наше стремление обнаружить закономерность не только сослужило нам добрую службу в прошлом, но послужило причиной для множества суеверий, примет и предрассудков. Автор советует нам не принимать шаблон за доказательство. Всегда должно быть логическое объяснение. Более того, это объяснение должно работать и с новыми данными.
Проблема у автора с объяснением феномена осьминога Пауля в том, что в большинстве матчей, результаты которых он предсказывал, флаги обоих участников состояли из горизонтальных полос. Лишь два матча из восьми можно расценить как противостояние полосатого и не полосатого флага.
А о подгонке данных и прочих манипуляциях я уже рассказывал в обзоре книжек Кита Йейтса и Алекса Эдманса. Но ничего, повторенье – мать ученья. В ходе своего повествования автор расскажет ещё о многих случаях недобросовестного обращения с данными. За что его можно уже похвалить – это за отсылку к здравому смыслу. Нам его слишком часто не хватает.
Как я встречу вашу маму
Ответ на пост «О защите наших данных»5
Во вторник у меня начался шквал звонков, на скрине — один из экранов для примера. Не все, увы, помечались как "нежелательные". Политика игнора не помогала, звонили по несколько раз. Стал блокировать — перезванивали с других номеров (отличавшихся парой последних цифр). Попробовал ответить: "Предлагаем открыть расчётный счёт, бухгалтерское сопровождение и пр." Удивился, т.к. действующее ООО у меня было зарегистрировано аж в конце 2016-го, ИП — около 3 лет назад.
И тут ко мне обратились по имени-отчеству. Только не моему, а брата. С которым у нас, что характерно, фамилия и отчество одинаковые. Были посланы со словами, что такого здесь нет, параллельно написал брату. А он сообщил, что в понедельник открыл ИП (а во вторник улетел и сейчас находится не в России, спаморезка ему рапортует о куче прибитых звонков).
Так что оцените степень трэша: все эти названивающие ушлёпки не просто получили инфу о регистрации ИП, но и каким-то образом сопоставили фамилию и отчество, нашли мои контакты и, не дозвонившись брату, начали названивать мне.
Персональные данные? Никого эта хрень не волнует. Это чисто повод для вздрючиваний и блокировок, по факту же никто не беспокоится о спокойствии и комфорте "кормовой базы" aka налогоплательщиков.
Baseus 6-в-1 USB-C Hub — Оптимизация рабочего места с расширением возможностей подключения
Серия многопортовых хабов Baseus 6-в-1 создана для улучшения взаимодействия между вашим компьютером или ноутбуком и периферийными устройствами. Концентраторы предлагают удобное расширение функциональности портов компьютера и помогают организовать рабочее пространство с минимальными усилиями и высоким уровнем производительности.
Особенности Baseus 6-в-1:
Thunderbolt 3/4: Порт поддерживает передачу данных со скоростью до 40 Гбит/с, позволяя мгновенно передавать большие объемы файлов и получать доступ к внешним накопителям.
HDMI-совместимый порт: Вы сможете подключить монитор или телевизор с разрешением 4K при 30 Гц, создавая удобную настройку для просмотра фильмов или презентаций.
Три порта USB 3.0: Предоставляют скоростную передачу данных до 5 Гбит/с, ускоряя обмен файлами и подключение внешних жестких дисков, клавиатуры, мыши и других аксессуаров.
SD и TF-карт: Высокоскоростной интерфейс SD/TF с поддержкой до 104 Мбит/с позволяет считывать фотографии и файлы прямо с карты памяти камеры или другого устройства.
Дополнительные достоинства:
Минималистичный дизайн: Толщина всего 8,3 мм обеспечивает лёгкое размещение концентратора рядом с ноутбуком, не занимая лишнего места.
Интеллектуальная быстрая зарядка: Совместим с технологией быстрой зарядки PD 100 Вт, гарантирующей питание и работоспособность устройства при полной загрузке.
Магнитный дизайн: Обеспечивает прочное и надежное соединение с основным оборудованием.
Этот гаджет становится идеальным решением для профессиональной среды, учебы или домашнего использования, делая вашу работу комфортной и эффективной.
****
Реклама. ООО "АЛИБАБА.КОМ (РУ)" ИНН 7703380158 erid=2SDnjdRJxH7


















