https://codereview.appspot.com/230760043/diff/1/text_generator.py File text_generator.py (right): https://codereview.appspot.com/230760043/diff/1/text_generator.py#newcode1 text_generator.py:1: import codecs On 2015/04/25 14:30:40, shad.python wrote: > нет ...
8 years, 11 months ago
(2015-05-18 22:00:11 UTC)
#5
https://codereview.appspot.com/230760043/diff/1/text_generator.py
File text_generator.py (right):
https://codereview.appspot.com/230760043/diff/1/text_generator.py#newcode1
text_generator.py:1: import codecs
On 2015/04/25 14:30:40, shad.python wrote:
> нет докстрингов
Done.
https://codereview.appspot.com/230760043/diff/1/text_generator.py#newcode112
text_generator.py:112: INPUT_FILE = 'input.txt'
On 2015/04/25 14:30:40, shad.python wrote:
> вот так хардкодить имена файлов не очень хорошо. Лучше читать со стандартного
> ввода и писать в стандартный вывод, чем вот так задавать их константами.
Done.
https://codereview.appspot.com/230760043/diff/1/text_generator.py#newcode115
text_generator.py:115: LETTER_SEQUENCE_REGEXP =
'[A-Za-zйцукенгшщзхъфывапролджэёячсмитьбю'\
On 2015/04/25 14:30:40, shad.python wrote:
> 1 зачем тут регулярки?
> 2 для русского точно так же можно задавать буквы диапазоном а-яА-Я
> 3 в регулярках есть ключ \w
> 4 строки должны быть юникодные
1 Так удобнее разбивать строку на токены
2 Там проблемы с ё, и даже а-яА-ЯёЁ работает хуже, чем данная длинная регулярка
=)
3 Мне же нужно отдельны числовые, отдельно буквенные значения
4 Так я ж с ними и работаю?
https://codereview.appspot.com/230760043/diff/1/text_generator.py#newcode148
text_generator.py:148: def tokenize(text, numbers=False, punctuation=False,
other_symbols=False):
На самом деле намного удобнее сразу же нужные виды токенов. Но я сделал отдельно
функцию, которая находит все токены соответствующие набору регулярок и отдельно
функцию фильтрации. По смыслу практически то, что и надо, а в плане написания
короче и проще.
https://codereview.appspot.com/230760043/diff/1/text_generator.py#newcode184
text_generator.py:184: if sequence not in frequencies:
On 2015/04/25 14:30:40, shad.python wrote:
> для этого удобно использовать collections.defaultdict
Done.
Issue 230760043: Andrey Drozdowsky - 2
Created 9 years ago by tagrimar
Modified 8 years, 11 months ago
Reviewers: shad.python, ys.algorithms
Base URL:
Comments: 12