четверг, 2 января 2014 г.

Social Mining

Как и обещал, сейчас львиную долю свободного времени трачу на сокращение количества долгов: доведение сериалов до конца, обещанные переводы, тотальное обновление некоторых интернет ресурсов, чья работа находится в моем ведомстве. Видимое отсутствие эффекта, объясняется просто - долгов накопилось изрядно, и не хочется снова обрубать серии на половине.  А идет, к сожалению не сверх быстро.
Впрочем сегодня речь пойдет о другой части жизни.
Не секрет, что интернет сейчас становится основным источником информации. Даже хорошие толковые и редкие книги проще найти в интернете. Я бы даже сказал, что о существовании большого количества книг без интернета узнать было бы трудно. Когда-то на помощь пользователям пришли поисковики, они в какой-то мере упорядочили хаос... Но потом... Потом в интернет пришли массы. Массы значит реклама, маркетинг... Да и просто информации стало на порядки больше. О качестве - увы такого сказать нельзя. Большая часть информации это т.н. "90% уникальный копипаст". Кто не сталкивался с индустрией рерайта и копирайта тот еще может доверять информации в сети по принципу, раз определенная информация встречается чаще - значит это и есть правда. В действительности 90% информации которую мы просматриваем, не смотря на "уникальность текстов", несмотря на множество авторов - это "унылый копипаст" сделанный в лучших традициях школьных рефератов, когда берется источник наиболее близкий к точке зрения учителя и передирается. Один к одному или своими словами - зависит от наглости/глупости реферируемого и степени доступности источника.

Как итог, мы прекрасно видим что по наиболее популярным запросам первые 10 страниц поисковой выдачи выдают максимум три принципиально различных мнения - и всё! Другие если и есть потеряны в глубинах. Также это значит, что ищущему приходится перерабатывать существенно большее количество породы в поисках руды.
Да у каждого из нас есть список источников, которые мы считаем достаточно авторитетными или просто приемлемыми. Но зачастую вследствие широты взглядов, вследствие наличия отнюдь не одного интереса, и обычно различающегося уровня познаний в этих направлениях, хочется (приходится) отслеживать многое, даже если вы не занимаетесь аналитикой.

В каком-то плане социальные сети стали прорывом в данном направлении, но лишь на очень короткое время. Начнем с того что те кого мы знаем - наши друзья, сослуживцы, далеко не всегда разделяют наши интересы. И получается, что окружая себя людьми которых мы знаем, в "ленте" нас начинают окружать совершенно не интересующие нас "кошечки-собачки", или абсолютно одинаковые репосты из популярных групп и сообществ "стань миллионером", "все шутки юмора", "кто не был ... не поймет". Это с одной стороны.
С другой те же группы и есть те самые сообщества по интересам, казалось бы выход найден... Но в реальности 99,9999% дерут друг у друга. Более того найти действительно полезную группу бывает крайне сложно, и опять же дабы не пропустить нужно подписываться на разные группы...
Все это приводит к совершеннейшему бардаку. Особенно с той точки зрения, что даже узря нечто полезное,  не всегда потом можешь его найти уже буквально через пару часов, не говоря про несколько дней. Да лайки и репосты - несколько улучшают дело, но только на первый взгляд. Ведь "лайк" Вы можете поставить как под полезной статьей, так и под фотографией собачки-кошечки-ребенка своего знакомого. Причем последних оказывается обычно существенно больше. Кто-то скажет что ведь есть Хеш-теги.. да есть. Но с ними та же беда. Мало того, что часто народ до одного и того же хештега сокращает разные вещи, так еще и как только хештег начинает становиться более-менее популярным, на него тут же падает огромное количество "спама". Получается, что как только начинается бурное развитие - инструмент перестает быть эффективным (с точки зрения data-nining).

Что характерно - эти же моменты вполне описывают и состояние различных популярных форумов, чатов, конференций, блогов. Зайдите на любой "старый" и достаточно популярный ресурс, и найти там нужную информацию бывает крайне сложно.

Есть еще одна лютая и просто "бешенная" проблема социальных сетей. Вас заинтересовал какой-то материал. Ставить лайк или делать репост - Вам не хочется, например в виду низкой моральной ценности материала. Вот прямо сейчас у Вас нет времени вдумчиво пройтись по данному материалу, но для себя Вы решили ознакомиться с ним, что делать в этом случае? А если Вас интересует не столько сама публикация, сколько комментарии под нею? Комментарии, которые то появляются со скоростью 50 штук в минуту, то затихают на неделю.

В моем случае я открываю вкладку в браузере и некоторое время она там висит. Висит до тех пор пока я не сделаю с ней все, что мне хотелось. В каких-то случаях, когда до статьи доходят "руки", чтобы хотя бы бегло прочитать, она уходит в забвение. В каких-то остается еще на время, для более детального знакомства. В каких-то я просто слежу за динамикой комментирования. Если мне нужно сохранить статью или ее части для дальнейшей обработки, или повторного использования  она отправляется в Evernote.

Какая в этом есть проблема? Начнем с того, что приходится использовать несколько браузеров. По сути кто-то из них используется преимущественно для работы, кто-то для "бесцельного брожения по просторам". Из всех браузеров, для подобного быстрого брожения меня больше всего устраивает Opera. Вот только в последнее время она находится в каком-то диком загоне. То половина сайтов считают ее идиотской и устаревшей программой и отказываются в ней работать. То отсутствуют нормальные "однокликовые" расширения/плагины (об этом чуть позже). В итоге довольно удобный и быстрый бразуер становится не сверх удобным.

Также немаловажной проблемой является вес современных интернет ресурсов. Даже с учетом моего не очень быстрого и стабильного интеренета (особенно на работе), время открытия страницы не доставляет мне особых проблем. Тут следует заметить, что в СНГшной глубинке (как впрочем и в глубинке штатовской или европейской) интернет еще хужее, и мне жаловаться недосуг. Так вот не время открытия страницы бесит. А то сколько она занимает в памяти. Я честно не понимаю отчего современные программы столько жрут. Skype, который висит в трее и вроде бы ничего не делает "жрет" минимум 100 МБ. Остальные google drive, teamviewer, evernote... все они даже в полностью пассивном режиме могут съесть пару гектар оперативной памяти. Запускаешь браузер, и он начинает "жрать" как не в себя. Причем что интересно. На домашнем древнем ноуте с 2 ГБ оперативы, три бразуера с таким же количеством вкладок как и на работе почему-то умудряются вмещаться в объем ОЗУ.  На рабочей машине с 8 ГБ - тоже, но "кушают" при этом раза в три больше. Что интересно и сайты и количество вкладок - примерно одинаково. С чего бы это?

Получается, что попытка оставить вкладку, для того чтобы с ней ознакомиться со временем, приводит к тому, что памяти начинает не хватать для выполнения непосредственных обязанностей. И вкладки надо закрывать, браузеры надо выключать. В целом это правильно, ибо брожение по сети мешает работе. Вопрос только вот в чем. Если я готовлюсь к лекции, параллельно с расчетом который длится 4-5 часов. И при этом я читаю не классический предмет, которые не меняется из года в год, а стараюсь дать современную информацию, то по сути брожение - и есть часть моей работы (оставлю эту "отмазку" пока в таком виде, потом может поясню). Как быть?

Вопросов озвучено уже прилично, но есть еще один, и достаточно существенный. Он уже упоминался ранее, теперь настал и его черед. Итак упомянутая проблема - "проблема одного клика". В чем же она заключается? И одна ли это проблема?
Проблема может и одна, но сторон у нее несколько. Так например одной из сторон можно назвать, что для нормального слежения за новостями, для их упорядочения, для их хранения, и обработки  нужно совершить множество действий. А чем больше действий - тем меньше вероятность того, что это будет сделано. Тот же "лайк/репост" чем так завораживает? Тем что напрягаться не надо! Итого действий должно быть как можно меньше, тогда удастся обработать большее количество информации.
Однако! Чуть выше я уже описывал ряд проблем связанных с лайками, и с "однокликовыми" действиями. Тяжко уложить кучу функций и подфункций в один клик. А раз так, то однокликовый функционал вряд ли устроит, тех кто хочет при этом держать все под контролем. Под собственным контролем.

Из двух последних тезисов начинает казаться, что решить противоречие не возможно. В какой-то мере это так, ибо как только будет разработан эффективный инструмент - почти сразу найдется не менее эффективный способ (и не один), который позволит "обгадить всю идею". Но, не смотря на это, попытаюсь изложить свои соображения на тему современного data mining'а в условиях распространенности Social Network'ов.


P.S.  Автор изображения - Дмитрий Мухин. Данная работа - одна из немногих, выполненных нашими студентами

2 комментария:

  1. Аффтар, Вы меня удивляете. Может декан действительно был прав и на нашей кафедре нет ни какого ИТ?
    По сути вопросов:
    1. Для избавления от котиков и прочей «шелухи» во френдленте давно придумана функция «Это не интересно» (здесь и далее пишу в терминах Вконаткика, но в Фейсбучке такое тоже есть) –большой крест справа над публикацией. С ее помощбю Вы спокойно баните все сообщения автора/сообщества/группы и не паритесь.

    2. Для запомнания «на потом» есть куча вариантов. Как-то «Мои закладки», «Мои заметки» Вконтактике. Закладки в бравзере (их можно синхронизировать между компами!!), тот же самый дропбокс, спеуиальный софт. Совсем не обязательно держать стопятсот открытых вкладок.
    Нужна динамика комментариев – на всех нормальных сайтае есть подписка на обновление темы.

    3. Ваша опера действительно «супер стар», т.к. скорее всего вы используете версию 12.15, которую уже давно похоронили. Новая Опера (15 и выше) уже не торт и представляет собой перепиленный Хромиум. Обновитесь до нее и все пройдет.

    4. По поводу памяти: народ полностью забыл про качество кода. Зачем напрягаться? Просто добавь памяти.
    За бравзеры скажите «спасибо» вирусописателям, былокодерам и социальным сетям (которые вы так восхваляете) с плагинами. Мало того, что сама вкладка открывается в «песочнице» (отдельная область памяти, отдельный процесс бравзера, все плагины запущенные заново) так она еще и обрастает кучей фигни с сайта (социальные табы, флеш баннера, аякс плагины, явас скрипты и почае мутотель. Так гиг на страницу и набегает.

    5. По пооводу старого компа: было бы у Вас больше памяти, они бы занимали больше. А так – заняли сколько смогли, остальное ушло в своп файл. Чего вы не написали, сколько занимает время переключения на старом и на новом?

    6. Таки да, надо бы заняться дата майнингом. Это проблема древняя и много софта нарожали под это дело. Попробуйте начать с работ господина Голубицкого http://www.internettrading.net/dm/dm.htm и его статей http://sgolub.ru/. Он освещает вопросы дата майнинга, т.к. банально на этом зарабатывает, делая статьи по накопленной информации.

    ОтветитьУдалить
    Ответы
    1. Рад, Александр, что могу еще Вас удивлять. Жаль только, что судя по всему удивление скорее негативное.
      Что касается декана - декан большой, ему видней.

      По остальному.
      1. В курсе, как и любой полностью автоматический инструмент работает далеко не всегда и не везде, как того хочется. Я стараюсь не подписываться на не интересных мне людей, но и у них не все их интересы мне интересны. Котики приведены исключительно как иллюстрация.

      2. Открытые страницы уже давно тоже могут синхронизироваться, как и многое другое. Да заметки есть. Увы не все из существующего я пробовал, но то что пробовал опять же не всегда устраивает. Это не значит, что я этим не пользуюсь. Но хочется "перламутровых пуговиц" (с). Особенно по той причине, что как только начинаешь чем-то активно пользоваться (как и просто оставленными вкладками) рано или поздно наступает коллапс и теряется смысл использования данного инструмента, который по началу был очень удобен.

      3. Я в курсе на счет судьбы оперы, и именно по этому она "супер стар". Но при этом многие сайты (как например тот же гугл) начали ее "банить" существенно до того как она вкорне изменилась. Использовать оперу которая вообще-то хром не вижу особого смысла. Лучше просто хром.

      4. И об этой особенности в курсе, но надеюсь Вы не будете спорить, что при написании продуктов нередко многие ставят во главу угла скорость и простоту написания оного, нежели скорость и устойчивость его работы. В сочетании с тем что упомянули Вы - это приводит к разным результатам. В чем-то даже есть упрощения, а в чем-то тупо катастрофа.
      Количество процессов запущенных хромом на одну страницу я видел и знаю откуда их столько.

      5. И тут Вы правы. Только своп на старой машине у меня не сравним с объемом памяти на новой машине. А так да, падает на своп, днамически подгружает-выгружает что-то и работает существенно медленнее. Ну так это применимо даже к CAE. Если в память ен уместились - у нас проблемы.

      6. Голубицкого читал и неоднократно, хотя в последнее время хуже. Мне чисто по человечески не всегда приятно читать его статьи. Это мой личный "бзык". Данная статья писалась как раз во время смерти гуглового рсс ридера. В теории это должна была быть серия публикаций, в том числе и с обзором софта, и с описанием того, как мне видится на текущий момент то что могло бы быть удобным... И именно потому что не осилил цикл, статья пролежала в черновиках. Но решил не мариновать. И так в черновиках слишком много всего.

      Впрочем, спасибо за комментарии и замечания. Иногда зацикливаешься в своем мире и перестаешь развиваться. Можно даже сказать не "иногда" а "так и тянет"

      Удалить

Related Posts Plugin for WordPress, Blogger...
Rambler's Top100