Содействие - исключение из 3-го закона Ньютона.

Амальгама

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Амальгама » Reductor Sapiens » Ответ по нейронным сетям #2


Ответ по нейронным сетям #2

Сообщений 571 страница 600 из 1042

571

#p82419,Шарпер написал(а):

Что значит нет символов останова, если в печатном тексте есть пробелы как минимум

Значит плюс еще  два байта на пробел, потому что еще может быть точка, запятая, вопросительный и отрицательный знаки, кавычки всякие и прочие скобки...

Отредактировано Лукомор (2018-03-14 14:27:54)

0

572

Лет так... чуть ли не 25 назад задался мыслью: что если хранить не слова, а номера их позиций в некотором словаре (простейшее - берём текст и все неповторяющиеся выписываем). Дальше можно, несколько видоизменив подход, применить его к словарю (нужны ли дальнейшие итерации - надо смотреть). По прикидкам выходило, что радости в том никакой нет. Но что на что выходило в точности уже не помню.
Попробуем восстановить. Возьмём, скажем, "Войну и мир". Объемом 2966547 знаков и... Вот со словами - хуже. Различные источники дают неодинаковое количество: 460787, 478458, 561304... И это еще не всё! Дескать Word выдает 188 088. Похоже, что в первых трех вариантах засчитываются в слова ещё и знаки припинания. Ладно, возьмем на круг 500000.
Вопрос: а каков словарь романа? Пока не нашёл.

0

573

Попалась, правда, забавная информация:

29
примерно столько лет было княжне Марье, когда она вышла замуж за Николая. По меркам того времени она была старой девой.

27
столько лет Андрею в начале романа. Наташе, которая спустя пять лет станет его невестой, в начале книги 13.

70 000 000 рублей
именно столько в пересчете на сегодняшние деньги проиграл Николай Ростов в карты. В романе это 43 000 рублей.

245 000 000 рублей - примерно столько сегодня Пьер отдавал бы Элен "на прожитье". В романе это 150 000 рублей.

86
столько раз за роман упоминаются глаза Наташи. Глаза княжны Марьи - 40, а глаза первой красавицы Элен - всего 5. Глаза Толстой считал зеркалом души.

559
примерно столько действующих лиц насчитывают в романе. Около 200 из них - исторические лица.

0

574

О нашёл! Количество неповторяющихся слов 38873.

0

575

Стоп! Это архивация какая-то выходит. А было как-то по-другому...

0

576

#p82419,Шарпер написал(а):

есть пробелы как минимум? Но фишка в том, что они не особо и нужны, ибо "парикмахер", даже в разных падежах  имеет естественное начало и конец последовательности

Стопарики могут быть из любого материала, я даже могу себе представить стопарик махеровый.

Отредактировано Zagar (2018-03-14 13:31:29)

0

577

#p82425,DoctorLector написал(а):

А как же "Парикмахерская"?

Так же просто, как с парикмахером - продолжений последовательности "парикмахер" с букв "ская" я думаю, нет в природе, зато есть повторяющияся и самодостаточная, как луна на фоне черного неба, "парикмахерская". Но проблем. Ваще!

#p82425,DoctorLector написал(а):

И откуда алгоритм узнает, что большинство "салонов красоты" - та же ерунда?

хе-хе. По сходству функций, т.е. абстрактной сцене действия.

#p82425,DoctorLector написал(а):

И где в этой дивной схеме анализа "перечень окончаний" для слова "парикмахер" без использования ещё полусотни адресов по 8 байт каждый?

Дык - парикмахер/а/у/е/ом//ская.

#p82425,DoctorLector написал(а):

Если каждый бит реализовать адресом, то понадобится с миллиард адресов под всё это хозяйство. Каковые адреса пока восьмибайтовые, но есть перспективы роста.

Ну, во-первых и нет смысла КОИ-8 и т.п. представлять побитно, с текстами удобнее работать побайтно. Я же побитную организацию как предельную возможность продемонстрировал.
Кстати слов-то дофига, а сочетаний м.б. и меньше. Например "стремительный домкрат" имеет очень ограниченную применимость, а сконфуженный домкрат - нулевую

#p82425,DoctorLector написал(а):

Что получаем взамен: реализацию алгоритма 60-х годов с неясными перспективами его работоспособности и отладки, потому что "естественное начало и конец" каждой последовательности естественным образом определены только в коробочке с Шарпером, компьютеру же они не просто двоюродные, а совсем чужие.

Это Вы зря так. Trie метод вовсю используется в поисковых системах, но со стандартной адресацией. Кстати самый быстрый способ. Но отфильтровать дубликаты им нельзя.

0

578

#p82428,Лукомор написал(а):

Значит плюсеще  два байта на пробел, потому что еще может быть точка, запятая, вопросительный и отрицательный знаки, кавычки всякие и прочие скобки...

А внимательно проочесть?

0

579

#p82436,nvs написал(а):

Стоп! Это архивация какая-то выходит. А было как-то по-другому...

Побочка

0

580

Ничто так не портит мою нервную систему, как всё

0

581

#p82437,Zagar написал(а):

Стопарики могут быть из любого материала, я даже могу себе представить стопарик махеровый.

Да легко, если без контекста. Но очень редко стопарик в сцене действия фигурирует с мохером, а кукольный парик в качестве емкости для спиртного. Так что как ни крути, а с подлодки сцены действия не сбежать. Впрочем, что-то разбор предложения вспомнился, подлежащее там, сказуемое...

0

582

Не, не так. Если заменять слово его адресом в словаре - архивация, а можно так: перечислять для каждого слова в словаре его позиции в тексте.

0

583

#p82443,Шарпер написал(а):

Но очень редко стопарик в сцене действия фигурирует с мохером

Это конкретно стопарик с махером редко, а сама ситуация, когда текст без пробелов может быть разбит на слова несколькими разными способами - это вполне обычное дело, которое нельзя игнорировать в таких задачах.
Ну типа классического "О вермишель!", - пропела солонина из оперы "Видримазгор"

#p82443,Шарпер написал(а):

Впрочем, что-то разбор предложения вспомнился, подлежащее там, сказуемое...

Перед этим таки символьную последовательность надо сначала корректно на слова разбить, и только потом...

0

584

#p82447,nvs написал(а):

Не, не так. Если заменять слово его адресом в словаре - архивация, а можно так: перечислять для каждого слова в словаре его позиции в тексте.

Я понял. Я тоже начинал с чего=то подобного. Собственно кодирование словаря и есть иероглифический аналог записи, только в тексте надо писать номер-адрес слова из словаря. Но потом я понял, что толковый словарь по сути тоже текст и нужно кодирование

0

585

#p82449,Zagar написал(а):

Это конкретно стопарик с махером редко, а сама ситуация, когда текст без пробелов может быть разбит на слова несколькими разными способами - это вполне обычное дело, которое нельзя игнорировать в таких задачах.

Всегда однозначно, если инфа полная. Или приведите пример.

#p82449,Zagar написал(а):

Ну типа классического "О вермишель!", - пропела солонина из оперы "Видримазгор"

Не знаю такой клвссики. не понял

#p82449,Zagar написал(а):

Перед этим таки символьную последовательность надо сначала корректно на слова разбить, и только потом...

Я же говорю, это легко, а уж с пробелами вообще от нечего делать.

0

586

#p82453,Шарпер написал(а):

Всегда однозначно, если инфа полная.

В этом смысле неполнота инфы в реальных текстах будет хронической и повсеместной. И надо учитывать, что с такими текстами и придется работать.

#p82453,Шарпер написал(а):

Не знаю такой клвссики

https://www.proza.ru/2011/02/28/126

#p82453,Шарпер написал(а):

Я же говорю, это легко

Я тебе привел примеры, когда это сложно.

0

587

Выходит, что для записи позиции необходимо 8 байт (если ничего не напутал).

Тогда имеем:
а) словарь-таблица соответствия уникального слова его записей адресов позиций в "б)" и
б) линейный список адресов размещения в тексте.
Прикинем объем.
а) 4 байта на слово (в тексте какое-то есть длиной 25 букв) плюс Х байт (посчитаем позже) на позицию в линейном словаре. Сумму умножаем на 40000 (примерное число уникальных слов).
б) 8 байт на один адрес в тексте плюс стоповый байт (список-то линейный) на 500000 слов. Объём 4500000 байт. Адресуется теми же 8 байтами. Таким образом Х=8.
Таким образом, объём словаря "а)" оказывается 480000 байт.

Сравниваем 2966547 и 4500000 (480000 можно и не учитывать).

0

588

#p82452,Шарпер написал(а):

Я понял.

Это я сам с собою. Ты же в посте не цитировался.

0

589

Даже выпив стопарик, Мах ерничать не перестал: "На костре Мите льном отделанный галстук подарили. Дурдом! Кратер от влукана еще подарили бы, тьфу!"

+2

590

#p82456,nvs написал(а):

Сравниваем 2966547 и 4500000

Таким образом, имеем конкретный результат применения одной из реализаций записи адресом.

0

591

#p82439,Шарпер написал(а):

А внимательно проочесть?

Читаю внимательно:

#p82428,Шарпер написал(а):

Что значит нет символов останова, если в печатном тексте есть пробелы как минимум

А как максимум?

парикмахер?

и

парикмахер!

это одно слово,
или разные?

0

592

#p82456,nvs написал(а):

для записи позиции необходимо 8 байт (если ничего не напутал)

Всё гораздо, гораздо хуже. Мы помним, что биты уже отменили, поэтому на каждый символ требуется по 16 адресов, размером 8 байт каждый, всего 128 байт на символ, да плюс эти 8 байт на адрес позиции. Мы также помним, что чётные адреса представляют нули, а нечётные - единицы, поэтому нужен реестр, какие адреса уже задействованы, а какие - пока нет.
И не дай бог, если кто-нибудь объяснит Шарперу, что адреса тоже состоят из битов, ибо возникнет бесконечная рекурсия.

Отредактировано DoctorLector (2018-03-14 14:52:02)

0

593

#p82463,DoctorLector написал(а):

Мы помним, что биты уже отменили

Фигня вопрос, у меня где-то 8080 валяется. Ни разу ещё не паяный.  http://www.kolobok.us/smiles/standart/smile3.gif

0

594

#p82466,nvs написал(а):

у меня где-то 8080 валяется. Ни разу ещё не паяный.

Только 155 серия, только хардкор! Есть ЛА3 и ЛА6, тоже ненадёванные. Из них можно собрать и процессор, и память любых размеров. И есть залежи КТ315Б, если вдруг решим, что использование микросхем мешает реализации тёплых ламповых алгоритмов.  Где-то была даже пара 6Ф5П, можно на выходе звукового шкафа сделать расово верный усилитель. Рядом с видеоангаром повесим динамики - красота...

0

595

#p82469,DoctorLector написал(а):

Рядом с видеоангаром повесим динамики - красота

Но только не Загара на билеты ставить!

0

596

если есть биты
то можно и в городки забацать под интерес

0

597

Преферанс. Только преферанс.

+1

598

#p82469,DoctorLector написал(а):

если вдруг решим, что использование микросхем мешает реализации тёплых ламповых алгоритмов

А что за бесцеремонная дискриминация механической реализации?

0

599

#p82455,Zagar написал(а):

В этом смысле неполнота инфы в реальных текстах будет хронической и повсеместной. И надо учитывать, что с такими текстами и придется работать.

Я же сказал, только либо уточнением в диалоге, либо дедуктивно.

#p82455,Zagar написал(а):

https://www.proza.ru/2011/02/28/126

Пример идиотской дедукции без контроля смысла. "Ключница водку делала" Семантологи пример писали. С письменным такой ошибки не будет, но допустим...
1 дурь - солонина петь не может, невозможное сорчетание
2 дурь - О, вермишель, редкое сочетание в репертуаре солонины
3 дурь - видримрзгор - неизвестное сочетание для названий опер - требуется поиск.

Вывод - первый пример совершенно некорректен вне рамок семантической теории смысла

"На поле он посеял лён, когда поля кипели журавлями".

1 у Наполеона другая пррофессия
2 поляки поющие журавлями, фиговый маркер времени и места для сомнительного занятия Наполеона.

Вывод - сцены действия рулят. Гугль - глючит стабильно.

0

600

#p82461,Лукомор написал(а):

это одно слово,
или разные?

Одно, с расширенным списком окончаний

0


Вы здесь » Амальгама » Reductor Sapiens » Ответ по нейронным сетям #2