Быстрое чтение файла

@programina · Регистрация: 23.10.2011

Author24 — интернет-сервис помощи студентам

Здраствуйте. Я пишу программу, которая читает файлы порядка от нескольких килобайтов до максимум 3 Мб. Посоветуйте пожалуйста, какие функции и/или алгоритмы использовать для максимальнобыстрого чтения данных, представленных вещественными числами. Прошу прощения, если мой вопрос неправильно сформулирован.

@greeezz · 11.11.2011, 19:14

теперь я не могу собрать. говорит:
error: ‘FILE’ has no member named ‘bsize’|
в строке

C

1	printf("full:bsize=%d buffer=%d\n", f->bsize, f->buffer!=NULL);

Не по теме:

talis

Байт, а это что у вас за компилятор, который нашёл функции без объявления перед использованием?

и типы функций не указаны

@talis · 11.11.2011, 19:15

Не по теме:

Сообщение от greeezz

и типы функций не указаны

В Си такое по-умолчанию становится интом. Похоже, компилятор очень старый.

Байт · 11.11.2011, 19:28

Сообщение от talis

Не по теме:

Байт, а это что у вас за компилятор, который нашёл функции без объявления перед использованием?

Старинный Borland C 2.0
Можно и 3.1, он тоже такие вещи сечет.

@Thinker · 11.11.2011, 19:36

Сообщение от Байт

Thinker, сдавайтесь

Не хочется, но вроде как придется, надо подумать, почему мне в голову втельмяшилось, что для двоичного потока нет буферизации

Байт · 11.11.2011, 19:54

Сообщение от greeezz

теперь я не могу собрать. говорит:
error: ‘FILE’ has no member named ‘bsize’|
в строке

C

1	printf("full:bsize=%d buffer=%d\n", f->bsize, f->buffer!=NULL);

Странно...
В более свежих компиляторах (5.02 BCB-6) в хедере stdio.h в структуре FILE всюду есть член bsize
а свежее у меня нет, я - ретроград.

Добавлено через 13 минут
У Qt вместо bsize - _bufsize
Видать разные компиляторы по-разному называют поля структуры FILE. Мол нечего вам, прикладникам, со своим рылом в наши хедеры лезть.
Но вы не волнуйтесь, эту строчку можно вообще убрать, это так, для наглядности

Добавлено через 2 минуты

Сообщение от Thinker

Не хочется, но вроде как придется, надо подумать, почему мне в голову втельмяшилось, что для двоичного потока нет буферизации

Ничего, главное, что истина торжествует.

@Thinker · 11.11.2011, 20:09

Хорошо, давайте вместе. Обе функции Copy1 и Copy2 используют один и тот же размер буфера (по-вашему), но почему время их работы в разы отличается?

C

#include <stdio.h>
#include <time.h>
 
int Copy1(const char *fileNameIn, const char *fileNameOut)
{
   FILE *in, *out;
   char buf[BUFSIZ];
   long n;
   in = fopen(fileNameIn, "rb");
   out = fopen(fileNameOut, "wb");
   while (n = fread(buf, sizeof(char), BUFSIZ, in))
        fwrite(buf, sizeof(char), n, out);
   fcloseall();
   return 0;
}
 
int Copy2(char *fileNameIn, char *fileNameOut)
{
   FILE *in, *out;
   char buf;
   long n;
   in = fopen(fileNameIn, "rb");
   out = fopen(fileNameOut, "wb");
   while (fread(&buf, sizeof(char), 1, in))
        fwrite(&buf, sizeof(char), 1, out);
   fcloseall();
   return 0;
}
 
int main()
{
    long t;
    char *fname1 = "c:\\a.avi";
    char *fname2 = "c:\\b.avi";
    t = clock();
    Copy1(fname1, fname2);
    t = clock() - t;
    printf("%ld\n", t);
 
    t = clock();
    Copy2(fname1, fname2);
    t = clock() - t;
    printf("%ld\n", t);
 
    getch();
    return 0;
}

@Nameless One · 11.11.2011, 20:19

Сообщение от talis

В Си такое по-умолчанию становится интом. Похоже, компилятор очень старый.

Ну почему "старый"? Это корректный сишный код.

Код

[nameless@desktop c]$ gcc --version
gcc (GCC) 4.6.1 20110908 (Red Hat 4.6.1-9)
Copyright (C) 2011 Free Software Foundation, Inc.
Это свободно распространяемое программное обеспечение. Условия копирования
приведены в исходных текстах. Без гарантии каких-либо качеств, включая 
коммерческую ценность и применимость для каких-либо целей.

[nameless@desktop c]$ cat main.c
#include <stdio.h>

main(void)
{
    return foo(3);
}

foo(number)
int number;
{
    return printf("%d\n", number);
}
[nameless@desktop c]$ make
gcc -Wall -ansi -pedantic -pedantic-errors   -c -o main.o main.c
main.c:3:1: предупреждение: по умолчанию возвращаемый тип функции - «int» [-Wreturn-type]
main.c: В функции «main»:
main.c:5:5: предупреждение: неявная декларация функции «foo» [-Wimplicit-function-declaration]
main.c: На верхнем уровне:
main.c:8:1: предупреждение: по умолчанию возвращаемый тип функции - «int» [-Wreturn-type]
gcc -o sample  main.o
[nameless@desktop c]$ ./sample 
3
[nameless@desktop c]$

@Thinker · 11.11.2011, 20:25

Сообщение от programina

Здраствуйте. Я пишу программу...

Спасибо вам огромное, подняли очень интересную тему!
Байт, там хитрее все устроено. Выход, конечно, всегда есть, создать свой буфер, но там одна тонкость есть...

@ForEveR · 11.11.2011, 20:37

-=ЮрА=-, Дык одно дело работа с потоками через Си-стайл, другое дело работа с классами. Естественно scanf работает быстрее. Но fstream куда удобнее и все таки С++, а не Си.

@Thinker · 11.11.2011, 20:59

Буферизация всегда есть в текстовом и двоичном формате, теперь я это вижу. Но тогда как свой буфер точно такого же размера (а то и меньшего) в разы ускоряет процессы. Вот если встроенный буфер отключить, то собственный буфер сходит на нет.

@~~-=ЮрА=-~~ · 11.11.2011, 21:54

Сообщение от greeezz

осмелюсь предположить что fscanf за сценой делает аналогичные операции что и strtok и atof вместе взятые. отсюда и одинаковое время.

- представим ситуацию когда работаем с файлом который записан на съёмный носитель, например атавизм съёмных носителей -Дискетка 3,5(побитая, затёртая такая), ну или поближе к реалиям - подёртый вусмерть CD, так вот такой файлик лучше запихнуть поскорее в буферок, нежели скорее всего догробить дискетку или изи за неизбежного расстрекивания CD потерять поток где нибудь на середине диска - ну вот вставили мы его неудачно как раз на грани потери инфы на нём. Считать в буфер - это единственный вариант оставить съёмный носитель в покое и возможно отработать с инфой на съёмнике ещё разок...
PS:Я творил во время когда даже CDRW были роскошью - и с потерей данных ознакомлен так хорошо, что предпочту поскорее всё куда нибудь побыстрому считать, нежели издеваться fscanf-ом.

Байт · 11.11.2011, 22:15

Сообщение от Thinker

Буферизация всегда есть в текстовом и двоичном формате, теперь я это вижу. Но тогда как свой буфер точно такого же размера (а то и меньшего) в разы ускоряет процессы. Вот если встроенный буфер отключить, то собственный буфер сходит на нет.

Видимо fread не просто пересылает несколько байт из буфера, а еще о чем-то напряженно думает, потому лучше к нему обращаться пореже.
Так что мы оба оказались правы. что приятно.
Итоги дискуссии
1. Буфер создается для любого потока, если для его уничтожения не предпринимать специальных мер.
2. Тем не менее, в критических по времени случаях следует создавать собственный буфер, чтобы пореже обращаться к функциям fread, fwrite

Добавлено через 2 минуты

Сообщение от Thinker

Спасибо вам огромное, подняли очень интересную тему!

Присоединяюсь. Из этого обсуждения нам удалось узнать кое-что новое и полезное.

@Thinker · 11.11.2011, 22:18

Согласен, дело более хитро обстоит. Именно то обстоятельство, что свой буфер значительно ускоряет работу и сбило меня с толку, что при этом автоматический буфер почти бездействует. Но благодаря этой теме понимаю, что все не так просто устроено. По поводу как раз вашего пункта 2. Почему так оказывается, что свой собственный буфер (даже меньшего размера) так все ускоряет. Это самый тонкий момент для меня оказался.

Байт · 11.11.2011, 22:18

Сообщение от ForEveR

-=ЮрА=-, Дык одно дело работа с потоками через Си-стайл, другое дело работа с классами. Естественно scanf работает быстрее. Но fstream куда удобнее и все таки С++, а не Си.

Простите, но если критичным становится ВРЕМЯ, а не затраченные программером усилия, тут уж не до комфорта.
А по поводу удобства, это уж дело вкуса и привычки.

@~~-=ЮрА=-~~ · 11.11.2011, 22:21

Сообщение от Байт

Простите, но если критичным становится ВРЕМЯ

- время работы с данными из ОЗУ на мой взгляд на порядок меньше времени затрачиваемого на сканирования файла, предлагаю увеличить размер файла до 20 МБ и сравнить время отработки, даже самому интересно стало...

Байт · 11.11.2011, 22:28

Сообщение от -=ЮрА=-

- время работы с данными из ОЗУ на мой взгляд на порядок меньше времени затрачиваемого на сканирования файла, предлагаю увеличить размер файла до 20 МБ и сравнить время отработки, даже самому интересно стало...

Ну так в чем вопрос? исходники все есть, измени там одну циферку и сравнивай.

@~~-=ЮрА=-~~ · 11.11.2011, 22:31

Сообщение от Байт

Ну так в чем вопрос? исходники все есть, измени там одну циферку и сравнивай.

- вобще исходники написал я сам

, неужели никому кроме меня самого не интресно???

@programina · 11.11.2011, 22:46 **[ТС]**

Юра, сделала твоей программой файл с 4 миллионами дублей весит ~24 Мб
Nоtepad выводит текст через 4 секунды..

Добавлено через 4 минуты
scanf = 4 cек
strtok = 4 сек
ifstream = 20 сек

@~~-=ЮрА=-~~ · 11.11.2011, 22:52

Сообщение от programina

Юра, сделала твоей программой файл с 4 миллионами дублей весит ~24 Мб
Nоtepad выводит текст через 4 секунды..

- ну хоть кому то непобоку

Ну это для данной задачи, а например изменить задание читать строки или выделять слова и буфер уверен покажет себя с лучшей стороны

@programina · 11.11.2011, 22:59 **[ТС]**

Юра, смотри че получилось когда я сделала на 40 дублей ~240 Mb :
strtok быстрее! 35 vs 26

Байт Диссидент 27706 / 17322 / 3812 Регистрация: 24.12.2010 Сообщений: 38,979
	11.11.2011, 19:28	43
	Сообщение от talis Не по теме: Байт, а это что у вас за компилятор, который нашёл функции без объявления перед использованием? Старинный Borland C 2.0 Можно и 3.1, он тоже такие вещи сечет. 0

@Thinker 4267 / 2241 / 203 Регистрация: 26.08.2011 Сообщений: 3,802 Записей в блоге: 5
	11.11.2011, 19:36	44
	Сообщение от Байт Thinker, сдавайтесь Не хочется, но вроде как придется, надо подумать, почему мне в голову втельмяшилось, что для двоичного потока нет буферизации 1

@Thinker 4267 / 2241 / 203 Регистрация: 26.08.2011 Сообщений: 3,802 Записей в блоге: 5
	11.11.2011, 20:25	48
	Сообщение от programina Здраствуйте. Я пишу программу... Спасибо вам огромное, подняли очень интересную тему! Байт, там хитрее все устроено. Выход, конечно, всегда есть, создать свой буфер, но там одна тонкость есть... 1

@ForEveR В астрале 8049 / 4806 / 655 Регистрация: 24.06.2010 Сообщений: 10,562
	11.11.2011, 20:37	49
	-=ЮрА=-, Дык одно дело работа с потоками через Си-стайл, другое дело работа с классами. Естественно scanf работает быстрее. Но fstream куда удобнее и все таки С++, а не Си. 0

@Thinker 4267 / 2241 / 203 Регистрация: 26.08.2011 Сообщений: 3,802 Записей в блоге: 5
	11.11.2011, 20:59	50
	Буферизация всегда есть в текстовом и двоичном формате, теперь я это вижу. Но тогда как свой буфер точно такого же размера (а то и меньшего) в разы ускоряет процессы. Вот если встроенный буфер отключить, то собственный буфер сходит на нет. 2

@programina 2062 / 618 / 41 Регистрация: 23.10.2011 Сообщений: 4,468 Записей в блоге: 2
		1
	Быстрое чтение файла 11.11.2011, 10:59. Показов 19076. Ответов 71 Метки нет (Все метки) Здраствуйте. Я пишу программу, которая читает файлы порядка от нескольких килобайтов до максимум 3 Мб. Посоветуйте пожалуйста, какие функции и/или алгоритмы использовать для максимальнобыстрого чтения данных, представленных вещественными числами. Прошу прощения, если мой вопрос неправильно сформулирован. 3

@talis
	11.11.2011, 19:15 #42
	Не по теме: Сообщение от greeezz и типы функций не указаны В Си такое по-умолчанию становится интом. Похоже, компилятор очень старый. 0

@~~-=ЮрА=-~~ Заблокирован
	11.11.2011, 21:54	51
	Сообщение от greeezz осмелюсь предположить что fscanf за сценой делает аналогичные операции что и strtok и atof вместе взятые. отсюда и одинаковое время. - представим ситуацию когда работаем с файлом который записан на съёмный носитель, например атавизм съёмных носителей -Дискетка 3,5(побитая, затёртая такая), ну или поближе к реалиям - подёртый вусмерть CD, так вот такой файлик лучше запихнуть поскорее в буферок, нежели скорее всего догробить дискетку или изи за неизбежного расстрекивания CD потерять поток где нибудь на середине диска - ну вот вставили мы его неудачно как раз на грани потери инфы на нём. Считать в буфер - это единственный вариант оставить съёмный носитель в покое и возможно отработать с инфой на съёмнике ещё разок... PS:Я творил во время когда даже CDRW были роскошью - и с потерей данных ознакомлен так хорошо, что предпочту поскорее всё куда нибудь побыстрому считать, нежели издеваться fscanf-ом. 0

Байт Диссидент 27706 / 17322 / 3812 Регистрация: 24.12.2010 Сообщений: 38,979
	11.11.2011, 22:15	52
	Сообщение от Thinker Буферизация всегда есть в текстовом и двоичном формате, теперь я это вижу. Но тогда как свой буфер точно такого же размера (а то и меньшего) в разы ускоряет процессы. Вот если встроенный буфер отключить, то собственный буфер сходит на нет. Видимо fread не просто пересылает несколько байт из буфера, а еще о чем-то напряженно думает, потому лучше к нему обращаться пореже. Так что мы оба оказались правы. что приятно. Итоги дискуссии 1. Буфер создается для любого потока, если для его уничтожения не предпринимать специальных мер. 2. Тем не менее, в критических по времени случаях следует создавать собственный буфер, чтобы пореже обращаться к функциям fread, fwrite Добавлено через 2 минуты Сообщение от Thinker Спасибо вам огромное, подняли очень интересную тему! Присоединяюсь. Из этого обсуждения нам удалось узнать кое-что новое и полезное. 2

@Thinker 4267 / 2241 / 203 Регистрация: 26.08.2011 Сообщений: 3,802 Записей в блоге: 5
	11.11.2011, 22:18	53
	Согласен, дело более хитро обстоит. Именно то обстоятельство, что свой буфер значительно ускоряет работу и сбило меня с толку, что при этом автоматический буфер почти бездействует. Но благодаря этой теме понимаю, что все не так просто устроено. По поводу как раз вашего пункта 2. Почему так оказывается, что свой собственный буфер (даже меньшего размера) так все ускоряет. Это самый тонкий момент для меня оказался. 1

Байт Диссидент 27706 / 17322 / 3812 Регистрация: 24.12.2010 Сообщений: 38,979
	11.11.2011, 22:18	54
	Сообщение от ForEveR -=ЮрА=-, Дык одно дело работа с потоками через Си-стайл, другое дело работа с классами. Естественно scanf работает быстрее. Но fstream куда удобнее и все таки С++, а не Си. Простите, но если критичным становится ВРЕМЯ, а не затраченные программером усилия, тут уж не до комфорта. А по поводу удобства, это уж дело вкуса и привычки. 0

@~~-=ЮрА=-~~ Заблокирован
	11.11.2011, 22:21	55
	Сообщение от Байт Простите, но если критичным становится ВРЕМЯ - время работы с данными из ОЗУ на мой взгляд на порядок меньше времени затрачиваемого на сканирования файла, предлагаю увеличить размер файла до 20 МБ и сравнить время отработки, даже самому интересно стало... 0

Байт Диссидент 27706 / 17322 / 3812 Регистрация: 24.12.2010 Сообщений: 38,979
	11.11.2011, 22:28	56
	Сообщение от -=ЮрА=- - время работы с данными из ОЗУ на мой взгляд на порядок меньше времени затрачиваемого на сканирования файла, предлагаю увеличить размер файла до 20 МБ и сравнить время отработки, даже самому интересно стало... Ну так в чем вопрос? исходники все есть, измени там одну циферку и сравнивай. 0

@~~-=ЮрА=-~~ Заблокирован
	11.11.2011, 22:31	57
	Сообщение от Байт Ну так в чем вопрос? исходники все есть, измени там одну циферку и сравнивай. - вобще исходники написал я сам, неужели никому кроме меня самого не интресно??? 0

@programina 2062 / 618 / 41 Регистрация: 23.10.2011 Сообщений: 4,468 Записей в блоге: 2
	11.11.2011, 22:46 [ТС]	58
	Юра, сделала твоей программой файл с 4 миллионами дублей весит ~24 Мб Nоtepad выводит текст через 4 секунды.. Добавлено через 4 минуты scanf = 4 cек strtok = 4 сек ifstream = 20 сек 1

	11.11.2011, 22:59

@~~-=ЮрА=-~~ Заблокирован
	11.11.2011, 22:52	59
	Сообщение от programina Юра, сделала твоей программой файл с 4 миллионами дублей весит ~24 Мб Nоtepad выводит текст через 4 секунды.. - ну хоть кому то непобоку Ну это для данной задачи, а например изменить задание читать строки или выделять слова и буфер уверен покажет себя с лучшей стороны 1

@programina 2062 / 618 / 41 Регистрация: 23.10.2011 Сообщений: 4,468 Записей в блоге: 2
	11.11.2011, 22:59 [ТС]	60
	Юра, смотри че получилось когда я сделала на 40 дублей ~240 Mb : strtok быстрее! 35 vs 26 Миниатюры 1