Mybrary.info
mybrary.info » Книги » Компьютеры и интернет » Базы данных » Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать бу - Эйден Эрец (читаем книги TXT) 📗

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать бу - Эйден Эрец (читаем книги TXT) 📗

Тут можно читать бесплатно Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать бу - Эйден Эрец (читаем книги TXT) 📗. Жанр: Базы данных. Так же Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте mybrary.info (MYBRARY) или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Назад 1 ... 11 12 13 14 15 Вперед
Перейти на страницу:

Компания America Online усвоила этот печальный урок в 2006 году, когда, пытаясь помочь научным исследованиям, предоставила в открытый доступ поисковые логи более чем 650 000 пользователей [87]. Разумеется, AOL отредактировала их – имена людей были исключены, а идентификатор каждого пользователя был заменен на ничего не значащую цифровую комбинацию. AOL посчитала, что это обеспечит должную степень конфиденциальности пользователей. Однако компания сильно ошиблась.

Благодаря изучению логов, оказавшихся в открытом доступе, и их перекрестному сравнению с другими широкодоступными данными журналисты из New York Times Майкл Барбаро и Том Целлер-мл. смогли определить личности пользователей. Через несколько дней после выхода данных в свет Барбаро и Целлер заметили, что среди сотен других запросов за трехмесячный период пользователь 4417749 искал «специалистов по ландшафтному дизайну в Лилберне, штат Калифорния» и нескольких людей по фамилии «Арнольд». Быстрое изучение телефонного справочника показало, что этим пользователем, по всей видимости, была 62-летняя жительница Лилберна по имени Тельма Арнольд.

Когда Барбаро и Целлер связались с госпожой Арнольд и прочитали ей текст нескольких запросов из ее поискового лога, она пришла в ярость от того, что сделала AOL: «У всех нас есть право на частную жизнь. Об этом никто не должен был узнать».

AOL поняла свою ошибку и попыталась исправить проблему. Уже через три дня после выхода списка данных компания закрыла к нему общий доступ. Она также принесла свои извинения, уволила исследователя, выпустившего в свет логи, и его начальника. Через несколько недель в отставку подал технический директор AOL. Но было слишком поздно – данные уже разлетелись по Сети. Вследствие своих благородных, но непродуманных действий по содействию исследовательской работе AOL столкнулась с волной вполне заслуженной критики и была вынуждена отвечать за свои действия в суде в ответ на групповой иск. Эта ситуация стала классическим примером того, насколько сложно сделать анонимными большие данные, – а для работников отрасли она стала предостережением: с какими опасностями может столкнуться компания, занимающаяся альтруистическим обменом данными. AOL не получила никаких благ от публикации логов и в конечном итоге заплатила за свои действия огромную цену. Об этом помнил и Норвиг.

Разумеется, имена – не единственное, что может скомпрометировать массив данных. У Google Books имеется обратная проблема. Пожалуй, одним из немногих элементов текста, который вы можете выложить в открытый доступ, не боясь исков, является имя автора. Остальной текст книги защищен авторским правом.

Каким же образом большие тени помогают нам преодолеть это препятствие? Для того чтобы воспользоваться большими данными, исследователь должен найти тень, удовлетворяющую четырем важным критериям. Прежде всего тень должна защищать права миллионов людей, коллективные усилия которых создали изначальный массив данных. Во-вторых, она должна быть интересной. В-третьих, она не должна противоречить целям компании – хранителя данных. В-четвертых, она должна представлять собой нечто, что может быть реально создано на практике. Проблема AOL состояла не в том, что она выпустила в свет данные о пользовательских поисковых запросах, а в том, что выбранная ею тень слишком слабо скрывала реальные данные, в результате чего был серьезно нарушен первый критерий. Когда Джереми Гинсбург создал Google Flu Trends [88], он также выпустил в свет информацию, основанную на пользовательских поисковых запросах. Однако его тень представила данные в таком виде, что от этого никто не пострадал – не считая вируса гриппа.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.


[87]. Разумеется, AOL отредактировала их – имена людей были исключены, а идентификатор каждого пользователя был заменен на ничего не значащую цифровую комбинацию. AOL посчитала, что это обеспечит должную степень конфиденциальности пользователей. Однако компания сильно ошиблась.

Благодаря изучению логов, оказавшихся в открытом доступе, и их перекрестному сравнению с другими широкодоступными данными журналисты из New York Times Майкл Барбаро и Том Целлер-мл. смогли определить личности пользователей. Через несколько дней после выхода данных в свет Барбаро и Целлер заметили, что среди сотен других запросов за трехмесячный период пользователь 4417749 искал «специалистов по ландшафтному дизайну в Лилберне, штат Калифорния» и нескольких людей по фамилии «Арнольд». Быстрое изучение телефонного справочника показало, что этим пользователем, по всей видимости, была 62-летняя жительница Лилберна по имени Тельма Арнольд.

Когда Барбаро и Целлер связались с госпожой Арнольд и прочитали ей текст нескольких запросов из ее поискового лога, она пришла в ярость от того, что сделала AOL: «У всех нас есть право на частную жизнь. Об этом никто не должен был узнать».

AOL поняла свою ошибку и попыталась исправить проблему. Уже через три дня после выхода списка данных компания закрыла к нему общий доступ. Она также принесла свои извинения, уволила исследователя, выпустившего в свет логи, и его начальника. Через несколько недель в отставку подал технический директор AOL. Но было слишком поздно – данные уже разлетелись по Сети. Вследствие своих благородных, но непродуманных действий по содействию исследовательской работе AOL столкнулась с волной вполне заслуженной критики и была вынуждена отвечать за свои действия в суде в ответ на групповой иск. Эта ситуация стала классическим примером того, насколько сложно сделать анонимными большие данные, – а для работников отрасли она стала предостережением: с какими опасностями может столкнуться компания, занимающаяся альтруистическим обменом данными. AOL не получила никаких благ от публикации логов и в конечном итоге заплатила за свои действия огромную цену. Об этом помнил и Норвиг.

Разумеется, имена – не единственное, что может скомпрометировать массив данных. У Google Books имеется обратная проблема. Пожалуй, одним из немногих элементов текста, который вы можете выложить в открытый доступ, не боясь исков, является имя автора. Остальной текст книги защищен авторским правом.

Каким же образом большие тени помогают нам преодолеть это препятствие? Для того чтобы воспользоваться большими данными, исследователь должен найти тень, удовлетворяющую четырем важным критериям. Прежде всего тень должна защищать права миллионов людей, коллективные усилия которых создали изначальный массив данных. Во-вторых, она должна быть интересной. В-третьих, она не должна противоречить целям компании – хранителя данных. В-четвертых, она должна представлять собой нечто, что может быть реально создано на практике. Проблема AOL состояла не в том, что она выпустила в свет данные о пользовательских поисковых запросах, а в том, что выбранная ею тень слишком слабо скрывала реальные данные, в результате чего был серьезно нарушен первый критерий. Когда Джереми Гинсбург создал Google Flu Trends[88], он также выпустил в свет информацию, основанную на пользовательских поисковых запросах. Однако его тень представила данные в таком виде, что от этого никто не пострадал – не считая вируса гриппа.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, Купить полную версию книги

Назад 1 ... 11 12 13 14 15 Вперед
Перейти на страницу:

Эйден Эрец читать все книги автора по порядку

Эйден Эрец - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mybrary.info.


Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать бу отзывы

Отзывы читателей о книге Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать бу, автор: Эйден Эрец. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор mybrary.info.


Прокомментировать
Подтвердите что вы не робот:*