.
Отредактировано Шарпер (2021-12-04 22:51:04)
Амальгама |
Привет, Гость! Войдите или зарегистрируйтесь.
Вы здесь » Амальгама » Reductor Sapiens » Новая теория памяти – прорыв или утопия? #2
.
Отредактировано Шарпер (2021-12-04 22:51:04)
запросто
Идея богатая, но устройство можно взять попроще
Ну значит я не способен объяснить азы счета загибанием пальцев
Всё проще. Ты никого не сможешь научить методу, которого не существует.
Стесняюсь спросить, а в чем смысл этого действа?
Чтобы убедиться в том, что логарифмирование не даёт возможности хранить меньше значащих цифр. Там всё подробно описано.
Вы с чего решили, что упорядочивание по возрастанию касается нашего способа?
А можно как-то по существу что-то одно излагать, а не нести пургу обо всём подряд?
Если Вы про таблицу, то хранить надо
Откуда опять таблица? Вроде уже разговор про формулы. С помощью формулы буквенное слово перекодируется в число, числу присваивается номер. Я ничего не путаю? А потом хранить надо, но это только если про таблицу, а не про формулу. И хранить непонятно что - то ли число, то ли номер, то ли слово, то ли что еще. Я верно излагаю? Ничего не перепутал?
Ну еще раз разберите символьные таблицы, которые работают как фильтры входных данных
И на хрена все эти формулы, если эти твои таблицы и с символами работают?
Поэтому я и не стал спорить
Еще бы. Тут уж слишком всё очевидно, чтобы с этим спорить.
Помятуя, что тексты у нас только для наглядности, углубляться в состав слов не вижу смысла.
Тут не смысла не видно, а возможности, причем даже теоретической. Невозможно разобрать где какая часть слова, оперируя численными кодами, в которых даже элементарного соответствия между буквой и цифрами нет, когда числовая кодировка приставки "под-" будет кардинально разной даже для слов "подштанники" и "подштанникам".
Всё проще. Ты никого не сможешь научить методу, которого не существует.
Метода вычисления индекса многомерного массива не существует?
Чтобы убедиться в том, что логарифмирование не даёт возможности хранить меньше значащих цифр. Там всё подробно описано.
А зачем Вы хотите их хранить? Вы какой-то другой способ изобретаете? Мне ни разу непонятно за каким чертом Вы восстанавливаете исходное значение из его логарифма. Зачем?
А можно как-то по существу что-то одно излагать, а не нести пургу обо всём подряд?
А что надо добавить к тому, что упорядочивание по возрастанию имеет отношение только к примеру, но не к предлагаемому способу, как почему-то решили вы? Я совершенно серьезно спрашиваю, потому что не понимаю претензии
Откуда опять таблица? Вроде уже разговор про формулы.
С таблицами нагляднее, а разницы никакой
С помощью формулы буквенное слово перекодируется в число, числу присваивается номер. Я ничего не путаю? А потом хранить надо, но это только если про таблицу, а не про формулу. И хранить непонятно что - то ли число, то ли номер, то ли слово, то ли что еще. Я верно излагаю? Ничего не перепутал?
Я вообще не сильно понял что Вы хотите сказать или спросить. Что Вам непонятно с хранением кода? Вы вообще понимаете зачем этот код нужен?
И на хрена все эти формулы, если эти твои таблицы и с символами работают?
Для того, чтобы напрасно не занимать память. Но на таблицах фильтрация совпадений наглядна
Еще бы. Тут уж слишком всё очевидно, чтобы с этим спорить.
Ну ОК
Тут не смысла не видно, а возможности
Зачем Вы опять пытаетесь опровергнуть уже давно реализованное? Мне просто лень отвлекаться на стороннюю тему
Метода вычисления индекса многомерного массива не существует?
Речь была про то, как из длинного числового кода сделать короткий. Метода сделать это не приведено. О многомерных массивах речи не было совсем, они тут ни при чем.
Вы вообще понимаете зачем этот код нужен?
Не очень. Ну вроде как для того, чтобы узнать есть ли закодированное слово где-то в памяти или нет. Угадал?
Зачем Вы опять пытаетесь опровергнуть уже давно реализованное? Мне просто лень отвлекаться на стороннюю тему
То, что реализовано, реализовано не тобой и не с помощью обсуждаемого метода. В твоем методе это невозможно реализовать в принципе, и это не стороняя тема, а строго по существу.
Речь была про то, как из длинного числового кода сделать короткий. Метода сделать это не приведено. О многомерных массивах речи не было совсем, они тут ни при чем.
Как это не приведено, если 100499 раз было сказано - пересчитать в порядке поступления, что самое простое. Ну иди прологарифмировать по Лукомору. Пока все получается и мне это все больше нравится
Не очень. Ну вроде как для того, чтобы узнать есть ли закодированное слово где-то в памяти или нет. Угадал?
Да. И логарифм от него тоже вполне пригоден, если настолько же уникален и укладывается в разрядность машинного слова. Ничего больше от кода не требуется
То, что реализовано, реализовано не тобой и не с помощью обсуждаемого метода. В твоем методе это невозможно реализовать в принципе, и это не стороняя тема, а строго по существу.
С чего вдруг? Какая разница что кодировать - слово или его часть? Впрочем, неважно.
Какая разница что кодировать - слово или его часть
Можно кодировать слоги, их не так уж и много.
Перейти к слоговому письму, каким были многие древние письменности.
Еще можно записывать только согласные буквы, выкидывая гласные, как это принято в некоторых восточных языках.
Это даст некоторую экономию памяти...
пересчитать в порядке поступления, что самое простое
И как имея номера слов от 1 до 10 узнать есть ли среди них слово "шарпер"?
А если есть и это слово номер 7, то по какой причине нельзя было этот номер присвоить самому слову "шарпер", а не его числовому коду?
Ну иди прологарифмировать по Лукомору
Это не уменьшает объема требуемой памяти.
С чего вдруг? Какая разница что кодировать - слово или его часть?
Вот есть два слова, которые отличаются ровно на одну букву. В одном слове 6 букв, во втором 5, при этом 5 из них одни и те же, дубликат. То есть за счет фильтрации дубликатов можно сократить количество хранимых символов с 11 до 6, то есть почти вдвое. Это существенная экономия памяти, игра стоит свеч.
По формуле Шарпера их числовые коды 1019371734 и 30890052. Их логарифмы по основанию 2, соответственно, 29.925033109 и 24.880638964, а порядковые номера по величине 2 и 1. Мне нужна пошаговая инструкция как на основании этой численной информации отфильтровать дубликат, чтобы освободить почти что половину памяти.
Впрочем, неважно.
В твоей формуле это как раз важно. Потому как в общем случае отдельно закодированная по твоей формуле часть слова и ее кодировка в составе слова не будут иметь между собой ничего общего. Ну вот из вышеприведенного примера: слово 30890052 является частью слова 1019371734. Это тебе как-то помогает выделить часть из слова?
И как имея номера слов от 1 до 10 узнать есть ли среди них слово "шарпер"?
Так слово будет ассоциировано с этим номером, т.е. в пределе находиться по адресу заданному этим номером.
"шарпер" (на входе) -> код -> номер -> "шарпер" (в памяти)
А если есть и это слово номер 7, то по какой причине нельзя было этот номер присвоить самому слову "шарпер", а не его числовому коду?
Можно, но с большими проблемами проверки посимвольным сравнением наличия слова "шарпер" а пвмяти, чтобы выйти на номер 7, что обессмысливает все действо
"шарпер" (на входе) -> поиск "шарпер" в памяти -> 7.
Это не уменьшает объема требуемой памяти.
Какой памяти? Подо что требуемой? Под перечисление миллиона номеров? При том, что ненужными становятся целые массивы символьных ключей и отфильтровываются дубликаты?
то существенная экономия памяти, игра стоит свеч.
Это не самоцель, а побочный результат, который может и не получиться
Их логарифмы по основанию 2, соответственно, 29.925033109 и 24.880638964, а порядковые номера по величине 2 и 1.
Вообще-то логарифмы предложены в качестве возможной альтернативы пересчету с присвоением номеров
Мне нужна пошаговая инструкция,
Придется подождать, я ее еще не придумал, так что воспользуйитесь пока табличным вариантом
В твоей формуле это как раз важно
Я не понял, Вы хотите вернуться к кодировке частей слов?
Перейти к слоговому письму
Мы же движемся к кодовой версии иероглифического
Мы же движемся к кодовой версии иероглифического
И я о том же...
Каждый иероглиф кодирует один слог.
Я не зря помянул слоговое письмо...
Придется подождать, я ее еще не придумал
Какой памяти? Подо что требуемой?
Под хранение числовых кодов слов в дополнение к хранению самих слов.
При том, что ненужными становятся целые массивы символьных ключей
Что за символьные ключи? Это слова, записанные буквами, или что?
отфильтровываются дубликаты
Ну как отфильтровываются? Возможно, когда-то будут отфильтровываться, но пока что....
...Придется подождать, я ее еще не придумал
Я не понял, Вы хотите вернуться к кодировке частей слов?
Нет, я вообще против кодировки, которая суть ненужное извращение с очень узким функциональным назначением, я за прямую работу с символами.
Под хранение числовых кодов слов в дополнение к хранению самих слов.
Эти коды вид хеш-значений, а хеши всегда хранятся.
Что за символьные ключи? Это слова, записанные буквами, или что?
Да. Специальные поля по которым осуществлется поиск. Плюс к ним еще и индексные, двоичные
Ну как отфильтровываются? Возможно, когда-то будут отфильтровываться, но пока что....
Совмещением. Символьную табличку внимательно посмотрите. Аналогия - система сит, которая на проход сортирует дробь по размерам. На примере таблиц более чем наглядно совмещение. На вычислении д.б. то же самое, но я еще не отлаживал
я за прямую работу с символами.
Компьютеры заточены под числа, так что ничего не получится. Ну или изобретать не символьную машину, а геометрическую.
Шарпер
Придется подождать, я ее еще не придумал
Подпись автора
Лукомор (год рождения: 195
Сам такой -
Шарпер
А лргарифм при потере точности коллизий не выдаст?
А я откуда знаю...
Проверять надоПодпись автора
Лукомор (год рождения: 195
Мне нужна пошаговая инструкция как на основании этой численной информации отфильтровать дубликат,
Придется подождать, я ее еще не придумал, так что воспользуйитесь пока табличным вариантом
Таки слушайте сюда! Отсюда уже будет проистекать!(с)
При ближайшем рассмотрении выяснилось, что табличный и вычислительный способы не являются в точности эквивалентными. Если в табличном варианте хранится вся предыстория получения результирующего кода, то при вычислении результат получается сразу, а вся предыстория утрачивается.
И шо вы таки из под себя думаете, бегемота это затруднение остановило? Тогда можно было подумать, что вы плохо думаете за бегемотоф! Но мы знаем, что вы таки думаете за бегемотов хорошо. Так вот вы правы - если на пути встретилась трудность то это ее собственные трудности.
Мы просто возьмем и расширим наш служебный кодовый список на промежуточные значения буквенных сочетаний. (напоминаю, текст служит примером). Эти буквенные сочетания могут не означать ничего, а могут являться самостоятельным словом и совпадать с частью ранее записанной более длинной словоформы, которое явит нам свой собственный код и адрес конца совпадения. Заполняться список кодов сочетаний будет исключительно уникальными сочетаниями по факту их необнаружения в списке. Совпадающие сочетания с ранее зарегистрированными в списке будут отфильтрованы не хуже чем табличным способом. Список может быть линейным, а может быть сложносвязанным, а значения преобразованными логарифмированием или еще как-то.
Что же касается объема списка, то при условии что мы с многократным запасом берем кол-во действующих словоформ равным миллиону, то при средней длине слова 6 букв, список займет 6 000 000 узлов или около 48 Мб на 64 битном компе, что ничтожно мало для языка.
Проверяйте!
Таки слушайте сюда! Отсюда уже будет проистекать!(с)
Ой вэй! И кто тут у нас под одесского строится?
при средней длине слова 6 букв
Если считать средневзвешенное значение, то и до 5 не дотянет. А то я русского устного языка не знаю.
Ой вэй! И кто тут у нас под одесского строится?
Не веришь, станиславский?
до 5 не дотянет.
По корпусу литературного русского считается 5.9
На примере таблиц более чем наглядно совмещение. На вычислении д.б. то же самое, но я еще не отлаживал
При ближайшем рассмотрении выяснилось, что табличный и вычислительный способы не являются в точности эквивалентными.
Я бы сказал, что они вообще ничего общего не имеют.
Компьютеры заточены под числа, так что ничего не получится
Весьма спорное утверждение. В двоичных кодах давно никто софт не пишет, да даже и ассемблером вряд ли кто-то пользуется. А в языках программирования, даже довольно старых, давно существуют арифметические операции с символьными строками. Ну то есть можно из одного набора символов вычесть другой и если получается ноль, то эти два набора идентичны. Это по сути не символьная, а арифметическая операция. То есть сравнение слов можно делать очень быстро.
А про то, что ничего не получится - неправда. Я сам могу написать на паскале прогу, которая может из потока слов фильтровать уникальные. Получится в любом случае, вопрос только в скорости и требуемом объеме памяти. И для меня не очевидно, что подход с кодированием дает какой-то выигрыш.
Эти буквенные сочетания могут не означать ничего, а могут являться самостоятельным словом и совпадать с частью ранее записанной более длинной словоформы
То есть кроме слова "шарпер" записываем также слова "ш", "ша", "шар", шарп" и "шарпе"?
Что же касается объема списка, то при условии что мы с многократным запасом берем кол-во действующих словоформ равным миллиону, то при средней длине слова 6 букв, список займет 6 000 000 узлов или около 48 Мб на 64 битном компе, что ничтожно мало для языка.
При символьной записи миллиона слов по 6 букв каждое тоже потребуется 48 МБ. И перелопатить такой объем информации можно за доли секунды. Задачка ерундовая. Не понимаю из-за чего весь сыр-бор?
Я бы сказал, что они вообще ничего общего не имеют.
Имеют, иначе бы матрицы не изображали бы таблицами
Весьма спорное утверждение. В двоичных кодах давно никто софт не пишет,
Спорное для тех, кто забыл что такое машинный код. Ну так еще Декарт аналогично втирал (покойный В.Арнольд писал), что истинная геометрия только аналитическая, хотя без инструментов ни одного определения не получить
А в языках программирования, даже довольно старых, давно существуют арифметические операции с символьными строками. Ну то есть можно из одного набора символов вычесть другой и если получается ноль, то эти два набора идентичны. Это по сути не символьная, а арифметическая операция. То есть сравнение слов можно делать очень быстро.
Можно. За счет быстродействия железа и можно вообще не думать почему человек с таким низким быстродействием мозга решает задачи на понимание текста от нефиг делать,а суперкомпьютер нет. А считает плохо. Вывод = заточен не под арифметику
А про то, что ничего не получится - неправда
Я просто случай через "А", "Ж", "П", "О" не рассматривал.
не очевидно, что подход с кодированием дает какой-то выигрыш.
А Колумб вообще плыл в Индию. Цель не в выигрыше по производительности или экономии памяти, цель в решении задач, например, понимания смысла или адекватного перевода на основе понимания опять же смысла.
То есть кроме слова "шарпер" записываем также слова "ш", "ша", "шар", шарп" и "шарпе"?
Типа того
При символьной записи миллиона слов по 6 букв каждое тоже потребуется 48 МБ. И перелопатить такой объем информации можно за доли секунды. Задачка ерундовая. Не понимаю из-за чего весь сыр-бор?
Правильно! Но вся фишка в том, что обычным способом приходится не эти 48 МБ шерстить, а терабайты произвольно расположенных в памяти данных в символьном формате с несчитанными дубликатами размеченными ключевыми хеш-таблицами. Я пример сортировки текста "Войны и мира" приводил.
То есть кроме слова "шарпер" записываем также слова "ш", "ша", "шар", шарп" и "шарпе"?
На всякий случай уточню, что записываются не все эти слова, а именно одно слова "шарпер" кодами вместо букв с "нарастающим итогом" для каждой следующей буквы. А все эти промежуточные "ш", "ша", "шар", шарп" будут внутри
Отредактировано Шарпер (2022-01-26 23:46:29)
кто тут у нас под одесского
Кстати, когда 40 лет назад я был в Одессе, то был страшно разочарован ни разу не услышав характерные речевые обороты. Зато я понял, что самые красивые девушки вовсе не в Саратове и даже не в Киеве. Мда-с...
И еще интересная побочка у записи слов кодами - не нужно хранить исходники в символьном формате, поскольку они на раз восстанавляваются из кодов.
Анекдот в тему:
Учительница классу:
- Тема следующего занятия "Устройство мозга человека". Принесите завтра
с собой молоток, зубило и зеленку.
Зато я понял, что самые красивые девушки вовсе не в Саратове и даже не в Киеве
Это были приезжие...
Кстати, когда 40 лет назад я был в Одессе, то был страшно разочарован ни разу не услышав характерные речевые обороты.
В то время эти речевые обороты вполне уже можно было слышать на Брайтон-бич.
Хотя я их вполне себе слышал и 20 лет назад в Одессе.
Просто я тогда в Облэнерго работал...
Отредактировано Лукомор (2022-01-27 07:45:11)
Облэнерго
Последний вариант проверял?
Последний вариант проверял?
Вариант чего?!
Отредактировано Лукомор (2022-01-27 12:45:40)
Имеют, иначе бы матрицы не изображали бы таблицами
Ну так матрицы и изображают таблицами. А формулы нет.
Я просто случай через "А", "Ж", "П", "О" не рассматривал.
Да? Я думал, что рассмотрение именно в таком аспекте у нас тут по умолчанию работает.
Спорное для тех, кто забыл что такое машинный код
То есть для практически всех.
Ну то есть можно поговорить об усовершенствовании конструкции паровоза, когда на дворе эпоха электромобилей.
Хотя мы говорим даже не о конструкции паровоза, а о частной конструкции пароперегревателя в его котле. Ну наверное, это как-то можно использовать в Тесле, но непонятно как и зачем.
Цель не в выигрыше по производительности или экономии памяти, цель в решении задач, например, понимания смысла или адекватного перевода на основе понимания опять же смысла.
Мы даже и не начинали обсуждать вопросы смысла. Я тебе предлагал поговорить о куда более интересных вещах, типа как генерировать гипотезы фамилий от общего знания о лошадинной природе фамилии, но ты не захотел про это говорить.
Вместо этого мы обсуждаем чисто кодерскую задачку по поиску символьных последовательностей. Проблема не в том, что от нее до смысла далеко, проблема в том, что это просто вообще не в ту сторону.
Но вся фишка в том, что обычным способом приходится не эти 48 МБ шерстить, а терабайты произвольно расположенных в памяти данных в символьном формате с несчитанными дубликатами размеченными ключевыми хеш-таблицами. Я пример сортировки текста "Войны и мира" приводил.
Если ты правда хочешь решать сложные задачи поиска и анализа текстовой информации, то тебе в любом случае придется иметь дело с этими терабайтами. Потому что важно не только знать какие слова есть в тексте, но и где именно, в каком контексте и пр.
А сортировка текста "Войны и мира" - очень частная задача, незначительный сегмент задач поиска. Я так вообще не понимаю, кому нужен список уникальных слов, используемых в "Войне и мире", кроме упоротого лингвиста, который напишет статью про то, сколько уникальных слов в "Войне и мире". Зачем и кому этот список может быть нужен еще?
Я вот со школы помню, что в "Войне и мире" есть только три слова, содержащие букву "ф": флот, флаг и анафема. Я от этого знания не стал лучше разбираться в "Войне и мире", флагах, флотах и анафемах. Ну и зачем мне или кому-то еще это знание, кроме как замусоривать мозги?
На всякий случай уточню, что записываются не все эти слова, а именно одно слова "шарпер" кодами вместо букв с "нарастающим итогом" для каждой следующей буквы. А все эти промежуточные "ш", "ша", "шар", шарп" будут внутри
И тебя не смущает, что числовые коды слов "шарпер" и "шарпе" (те самые 1019371734 и 30890052, соответственно) не имеют между собой никаких общих цифровых пересечений и что ты даже не сможешь понять, что эти два кода имеют друг другу какое-то отношение, пока не раскодируешь их обратно в символы?
Вы здесь » Амальгама » Reductor Sapiens » Новая теория памяти – прорыв или утопия? #2